[SEER教程03]手把手教你SEER*Stat软件解析SEER数据
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO, SEER数据挖掘。
拿到这样的数据后,内心大吼一声,终于等到你。
最近的一段时间在临床上遭遇了不测,遇到了形形色色的奇葩,实在忙不过来更新公众号了,白介素2在这里给各位道个歉;到现在为止,我仍然不能保证坚持每天更新,有时候从医院回来已经身心俱疲了,一着床就能睡着,一个字都看不进去了,希望大家能理解。
我们虽互不相识,甚至身隔千里,我们在无言的沟通,一起翻山渡河吧。今天分享一篇之前写好的内容吧。
SEER数据库介绍
看下基本的界面,网址链接:https://seer.cancer.gov/
基本介绍:SEER数据库全名(Surveillance, Epidemiology, and End Results** ),是美国权威的癌症统计数据库,该数据库记录了美国部分州县上百万名恶性肿瘤患者的发病率、死亡率和患病情况等信息。SEER数据库旨在降低美国人口的癌症负担,数据库中肿瘤信息通过SEERStat软件进行统一和规范,并定期更新发布。全球肿瘤研究者均通过申请获取部分数据,这为缺少临床科研数据的临床研究者提供了很好的数据来源。此外,SEER*数据库样本量大,统计学效能强,这使基于SEER数据库的研究具有较高的临床参考价值。
下载数据
首先来到下载数据的界面:https://seer.cancer.gov/data/options.html
下面我们 step by step来看下如何操作的,首先来到下载界面,是包括了软件下载和常规的数据下载:
先下载 SEER*Stat软件,这里值得一提的是,软件仅仅是软件,不是说下载软件了就可以不用去提交申请,获取下载权限。所以强调一点,数据下载权限还是要先获取,通过软件下载数据时是需要账号密码登录的。另外,软件其实挺友好的,只有2.9M。
此外,就是另一种下载方式,通过直接下载压缩文件到本地,这里我们推荐那个更大的文件,大概是1.58G,相当于把数据下载到本地,不用每次都去从网络获取,比较方便:
数据提取
数据提取,我们这里仅演示推荐的方式,因为白介素同学认为这种方式最简单。要进行这一步操作,我们默认已经达到了两个要求:这两步操作没什么特殊的,就是简单的安装,解压,不作详细讲解。
· 下载安装好了 SEERStat软件
· 下载解压好了 Windows Executable (1.58GB)文件
如果达到这两步要求,那我们继续往下操作,首先就是打开 SEERStat软件,大概就是这样一个界面:
比较简单,甚至不是那么好看哈哈,那没关系的,所谓金玉其内呀,好用就行。打开软件以后首先完成第一步操作,数据获取来源,点击 Profile-preferences, 会弹出来下面这个对话框。这里值得注意的问题是,添加的本地链接,要选择你刚刚解压的 1.5GB的地址,注意后缀名是到data文件夹哦!,很重要!很重要!很重要!,说了3遍,就是怕有些小伙伴不认真看,然后一遇到问题就到处问,自己不想办法找原因,光想着让别人解决。
这一步完成以后,就可以点击ok, 进一步选择自己感兴趣的数据了,到了这里你应该理解了吧,其实我们刚刚下载的本地文件,就相当于避免了每次都从网络获取的感人网速,实现了数据的本地化,这个操作非常关键。
下面的点击操作是 : File-New-Case Listing Session, 由于白介素同学这里截图截不到,只能以这样的方式了。相信如果真的有心的小伙伴是能够get到的, 这一步有可能会缓慢些,因为加载数据,总体还是1分钟以内吧。然后就能得到下面这个界面:注意:有可能这个过程需要你输入我们之前获取的SEER账号密码,因为白介素同学已经输过了。
白介素同学查了,第一个就是我们需要的,其它的感兴趣可以看下详细信息。然后切换到 Selection,筛选自己感兴趣的数据集,比如哪一种肿瘤,总不能全导出吧,因为数据量实在太大了,比如以下我们筛选自己感兴趣的 Lung。
然后点击ok就可以了,之后可继续选择自己需要的数据,切换到 Table界面:
比如下面白介素同学随便选择了几个数据,准备导出:
稍等大约几分钟的样子,因提取的数据量而异吧,数据量越大,当然相应的时间也要长一些。为了方便,白介素同学提取的数据就较小:
最后一步了就是提取后,导出到本地,同样的,截取不了操作界面的图哈。
点击操作:Matrix-Export-text file,然后自己选择下就能看到本地的文本文档了,给大家看下最终的结果吧。
拿到这样的数据后,内心大吼一声,终于等到你。