手把手教你 TCGA 数据库使用:以肝癌为例
手把手教你 TCGA 数据库使用:以肝癌为例 - 丁香园 http://paper.dxy.cn/article/511878
肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型。
TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的「图谱」。
下面我们就以肝癌为例,着重介绍 TCGA 数据库及利用 TCGA 数据库现有的数据深入挖掘寻找肝癌发生的关键基因。
TCGA 数据及功能
组织处理
1. 癌症病人自愿捐赠肿瘤组织及正常组织样本,由人类癌症生物标本核心资源库承担癌症组织标本和正常组织标本的采集、处理和分配工作
2. 组织样本经过严格标准处理(处理标准根据不同后续分析类型而异,具体标准请参见),确保质量可以用于进一步分析及测序,并由相关中心采用高通量测序技术进行基因和基因组排序
3. 获得的临床资料中,可以识别病人身份的信息去掉
整合研究
1. TCGA 基因组分析中心(GCC)比对肿瘤和正常组织,寻找异常的基因重组现象
2. 高通量测序中心(GSC)分析与各癌症或者亚型相关的基因突变、扩增或者缺失。
3. 资料分析中心(GDAC)进行资料的整理、汇总、并提供图表报告给全体研究团队
资料分享
1. 资料综合中心(DCC)集中处理各个团队产生的资料,定期公开于网络上供全世界研究人员利用
2. 提供公开的资料下载网站入口以方便进行资料搜索和下载
TCGA 数据类型和数据水平
TCGA 数据类型分为以下几种:
TCGA 数据水平及类型:
TCGA 标准方法
下载肝细胞肝癌癌症组织及正常组织信息,统计分析采用 R 语言(3.1.1 版本)软件,需安装及加载的程序包(pheatmap,venndiagram,hist 等),然后用 DESeq 和 edgeR 程序包进行分析,结果以热图(pheatmap)、韦恩图(VennDiagram)hist、PlotMA 等表示。具体的差异基因分析策略参考 oshlack 等报道的方法 [1]。差异基因的判断标准:1- 表达量在 2 倍以上或者 0.5 倍以下,2-P<0.05,3- 基因排名在前 10%。TCGA 数据分析方法 TCGA 数据水平及类型
以肝癌为例实战 数据检索
进入 TCGA 主页(点我进入)---Lunch Data Portal---Download Data---Data Matrix---Filter setting: select a disease (LIHC-liver hepatocellular carcinoma),Data Type(RNA Seq), platform: genome wide mRNA levels (Illumina mRNA-seq), microRNA levels (Illumina microRNA-seq),Tumor/Normal(tumor-matched or normal-matched) --- Apply---Color cells by (tumor/nomal)--- 下载。
本次下载共得到癌组织芯片信息 17 张,正常组织芯片信息 9 张,共 26 张。
表达谱差异基因
2.1 基因分布
对所下载的 26 张芯片进行 hist、plotMA 分析结果见图 1。
Hist 图反映的是每个统计后 P 值的分布规律,图中可看出 P 值接近 0 处频率很高,反映差异基因的数量很大。PLotMA 图反应的是基因表达量的分布规律,图中红线代表与正常组织比较表达量无差异的基因,红线以上表示表达量升高的基因,反之表示表达量下降,由图可以看出大部分差异表达基因属于高表达。
图 1 PlotMA 和 hist 图。左图显示的 PLotMA 图,图中红线代表与正常组织比较表达量相同的基因,红线以上表示表达量升高的基因,反之表示表达量下降。
2.2 差异基因热图
分别用 DESeq 和 edgeR 程序包对下载的 26 张芯片信息进行热图(pheatmap)分析,结果见图 2。由于符合差异基因判断的基因较多,热图中右侧基因名称无法清晰显示,图 3 列出 DESeq 方法差异基因中的 30 个。
Fig2. 左图显示用 DESeq 方法找到的差异基因热图,右图显示用 edgeR 方法找到的差异基因热图。红色代表基因表达上调,绿色代表基因表达下调。
Fig.3 DEseq 方法找到的差异基因中的 30 个基因热图。红色代表基因表达上调,绿色代表基因表达下调。
2.3 共同差异基因
图 4 显示的是用 DESeq 和 edgeR 方法寻找差异基因的韦恩图。图中我们可以看出用 DESeq 方法一共找到 719 个差异基因,而用 edgeR 方法找到 4413 个差异基因,两种方法都鉴别出的共同差异基因 713 个,包含三个表达下降(MT1B、BMP10 和 SYT10)和 710 个升高的基因(ALB、HP、FGB 等)
Fig.4 用 DESeq 和 edgeR 方法寻找差异基因的韦恩图。蓝色代表 edgeR 方法找出的特有基因,橘黄色为 DESeq 方法寻找出的特有基因,中间粉红色部分为两种方法共同鉴别出的差异基因。
2.4 兴趣基因验证
本次共检索到 719 个癌和正常组织的差异基因,通过差异倍数及相关文献可以确定自己感兴趣的基因,进行大样本的验证。
作者语
本研究以肝癌为例介绍了 TCGA 的基本情况包括数据处理、整合、数据水平及类型、统计分析方法,可以全面认识 TCGA。
文章结合了当下最热的生物信息学理论介绍了一种新的发现肿瘤差异基因包括 mRNA、micRNA、拷贝数变异等,该方法相较于传统的芯片筛选具有样本数量大、费用小、分析简单等优势,为更多的人进行大规模的肝癌基因组学研究以及基于基因组学的后续功能研究提供了可能性。
但 TCGA 也有自己的不足:免费版 TCGA 数据不包含患者基本情况及预后;只能描绘静态的突变或变异;不能反映基因水平到蛋白水平的改变。
不管怎样 TCGA 项目将对癌症生物学、基因组学技术、生物储藏库和生物信息学领域的最新成果得到协调发展和最佳应用,科学合理的应用 TCGA 数据库可以使得科研工作尤其是肿瘤研究事半功倍。
注:本文主要内容来自于 2015 年 Hans Journal of Surgery,作者排序为:贾俊君,何宁,张静,姜骊,周燕飞,周琳,郑树森
参考文献
1. Oshlack A, Robinson MD, Young MD (2010) From RNA-seq reads to differential expression results. Genome Biol 11: 220.
2. Alexandrov LB, Nik-Zainal S, Wedge DC, Aparicio SA, Behjati S, et al. (2013) Signatures of mutational processes in human cancer. Nature 500: 415-421.
3. Hoadley KA, Yau C, Wolf DM, Cherniack AD, Tamborero D, et al. Multiplatform Analysis of 12 Cancer Types Reveals Molecular Classification within and across Tissues of Origin. Cell 158: 929-944.
4. Barrio-Real L, Benedetti LG, Engel N, Tu Y, Cho S, et al. (2014) Subtype-specific overexpression of the Rac-GEF P-REX1 in breast cancer is associated with promoter hypomethylation. Breast Cancer Res 16: 441.
5. Yang D, Sun Y, Hu L, Zheng H, Ji P, et al. (2013) Integrated analyses identify a master microRNA regulatory network for the mesenchymal subtype in serous ovarian cancer. Cancer Cell 23: 186-199.
6. Brennan CW, Verhaak RG, McKenna A, Campos B, Noushmehr H, et al. The somatic genomic landscape of glioblastoma. Cell 155: 462-477.
本文转自公众号:科研论文时间
编辑: 冯宁