[SEER教程03]手把手教你SEER*Stat软件解析SEER数据 / 开普饭

欢迎来到医科研，这里是白介素2的读书笔记，跟我一起聊临床与科研的故事, 生物医学数据挖掘，R语言，TCGA、GEO, SEER数据挖掘。

拿到这样的数据后，内心大吼一声，终于等到你。

最近的一段时间在临床上遭遇了不测，遇到了形形色色的奇葩，实在忙不过来更新公众号了，白介素2在这里给各位道个歉；到现在为止，我仍然不能保证坚持每天更新，有时候从医院回来已经身心俱疲了，一着床就能睡着，一个字都看不进去了，希望大家能理解。
我们虽互不相识，甚至身隔千里，我们在无言的沟通，一起翻山渡河吧。今天分享一篇之前写好的内容吧。

SEER数据库介绍

看下基本的界面，网址链接：https://seer.cancer.gov/

基本介绍：SEER数据库全名(Surveillance, Epidemiology, and End Results** )，是美国权威的癌症统计数据库，该数据库记录了美国部分州县上百万名恶性肿瘤患者的发病率、死亡率和患病情况等信息。SEER数据库旨在降低美国人口的癌症负担，数据库中肿瘤信息通过SEERStat软件进行统一和规范，并定期更新发布。全球肿瘤研究者均通过申请获取部分数据，这为缺少临床科研数据的临床研究者提供了很好的数据来源。此外，SEER*数据库样本量大，统计学效能强，这使基于SEER数据库的研究具有较高的临床参考价值。

下载数据

首先来到下载数据的界面：https://seer.cancer.gov/data/options.html

下面我们 step by step来看下如何操作的，首先来到下载界面，是包括了软件下载和常规的数据下载：

先下载 SEER*Stat软件，这里值得一提的是，软件仅仅是软件，不是说下载软件了就可以不用去提交申请，获取下载权限。所以强调一点，数据下载权限还是要先获取，通过软件下载数据时是需要账号密码登录的。另外，软件其实挺友好的，只有2.9M。

此外，就是另一种下载方式，通过直接下载压缩文件到本地，这里我们推荐那个更大的文件，大概是1.58G,相当于把数据下载到本地，不用每次都去从网络获取，比较方便：

数据提取

数据提取，我们这里仅演示推荐的方式，因为白介素同学认为这种方式最简单。要进行这一步操作，我们默认已经达到了两个要求：这两步操作没什么特殊的，就是简单的安装，解压，不作详细讲解。

· 下载安装好了 SEERStat软件
· 下载解压好了 Windows Executable (1.58GB)文件
如果达到这两步要求，那我们继续往下操作，首先就是打开 SEERStat软件，大概就是这样一个界面：

比较简单，甚至不是那么好看哈哈，那没关系的，所谓金玉其内呀，好用就行。打开软件以后首先完成第一步操作，数据获取来源，点击 Profile-preferences, 会弹出来下面这个对话框。这里值得注意的问题是，添加的本地链接，要选择你刚刚解压的 1.5GB的地址，注意后缀名是到data文件夹哦!，很重要！很重要！很重要！，说了3遍，就是怕有些小伙伴不认真看，然后一遇到问题就到处问，自己不想办法找原因，光想着让别人解决。

这一步完成以后，就可以点击ok, 进一步选择自己感兴趣的数据了，到了这里你应该理解了吧，其实我们刚刚下载的本地文件，就相当于避免了每次都从网络获取的感人网速，实现了数据的本地化，这个操作非常关键。
下面的点击操作是 : File-New-Case Listing Session, 由于白介素同学这里截图截不到，只能以这样的方式了。相信如果真的有心的小伙伴是能够get到的, 这一步有可能会缓慢些，因为加载数据，总体还是1分钟以内吧。然后就能得到下面这个界面：注意：有可能这个过程需要你输入我们之前获取的SEER账号密码，因为白介素同学已经输过了。