TCGA与SEER两大癌症数据库首次比较

做生物信息分析会经常看到两个数据库,一个时TCGA数据库,一个是SEER数据库,特别是癌症分析,这两大数据库是绕不开的。随着国内对TCGA数据研究不断深入,越来越多的人选择TCGA数据库作为癌症分析的入口。这也是不用实验,就能获得大量数据进行研究最佳选择。TCGA和SEER两大数据库都是美国国立,用于癌症研究的数据库,很多学员就产生疑问,这两大数据库究竟有什么不同,做分析时需要如何选择。其实两大数据的区别时非常大,如果只用过其中一个数据库,就会对另外一个数据库不了解,如果同时使用过这两大数据库,就很容易发现,其实他们都用于分析癌症,那是研究侧重点和方向时不同的。
1、首先认识一下TCGA和SEER
从网址开始,TCGA数据库:https://cancergenome.nih.gov/;SEER数据库:https://seer.cancer.gov/;打开两个数据库,我们发现这两个数据库的LOGO时一样的,说明TCGA和SEER都是美国NIH这个机构提供的数据库。

2、TCGA和SEER数据库官方定义
TCGA数据库:
美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。
SEER数据库:
美国国立癌症研究所“监测、流行病学和结果数据库”SEER是北美最具代表性的大型肿瘤登记注册数据库之一,收集了大量循证医学的相关数据,为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料。

从定义基本可以知道TCGA数据库和SEER数据库的区别了
3、数据类型
TCGA数据库:
数据类型多,包括表达数据,甲基化数据,copy number,核苷酸序列以及临床信息
下面这副图可以很好的展示TCGA的数据类型

SEER数据库:
SEER数据库提供的临床数据,数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。www.biowolf.cn版权所有。
4、癌症类型
TCGA数据库包含了主要的33种癌症数据,具体请参照:TCGA数据库癌症类型
SEER数据库所涉及的肿瘤划分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。
5、数据下载与数据提取
SEER数据库可以直接下载数据包,进行数据提取,亦可以下载桌面工具SEERStat进行桌面话数据下载提取,下载方便,但是数据筛选有点复杂,对于初学者有挺高难度。操作步骤可参照:SEERStat下载使用     
TCGA数据库以单个样本保存一个文件的形式保存在后台,分析一种癌症,需要下载相关癌症的对应文件,下载后需要把每个样本的信息整理到一个文件,用于后续分析,这个步骤对于初学者难度很大,整理好之后的矩阵就显得简单很多,后期分析简单。操作步骤可参照:TCGA数据库数据下载整理  

(0)

相关推荐