手把手教你 TCGA 数据库使用：以肝癌为例

2024-05-17 13:10:13

手把手教你 TCGA 数据库使用：以肝癌为例 - 丁香园 http://paper.dxy.cn/article/511878

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute（NHGRI）于 2006 年联合启动的项目，目前共计研究 36 种癌症类型。

TCGA 利用大规模测序为主的基因组分析技术，通过广泛的合作，理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。最终完成一套完整的与所有癌症基因组改变相关的「图谱」。

下面我们就以肝癌为例，着重介绍 TCGA 数据库及利用 TCGA 数据库现有的数据深入挖掘寻找肝癌发生的关键基因。

TCGA 数据及功能

组织处理

1. 癌症病人自愿捐赠肿瘤组织及正常组织样本，由人类癌症生物标本核心资源库承担癌症组织标本和正常组织标本的采集、处理和分配工作

2. 组织样本经过严格标准处理（处理标准根据不同后续分析类型而异，具体标准请参见），确保质量可以用于进一步分析及测序，并由相关中心采用高通量测序技术进行基因和基因组排序

3. 获得的临床资料中，可以识别病人身份的信息去掉

整合研究

1. TCGA 基因组分析中心（GCC）比对肿瘤和正常组织，寻找异常的基因重组现象

2. 高通量测序中心（GSC）分析与各癌症或者亚型相关的基因突变、扩增或者缺失。

3. 资料分析中心（GDAC）进行资料的整理、汇总、并提供图表报告给全体研究团队

资料分享

1. 资料综合中心（DCC）集中处理各个团队产生的资料，定期公开于网络上供全世界研究人员利用

2. 提供公开的资料下载网站入口以方便进行资料搜索和下载

TCGA 数据类型和数据水平

TCGA 数据类型分为以下几种：

TCGA 数据水平及类型：

TCGA 标准方法

下载肝细胞肝癌癌症组织及正常组织信息，统计分析采用 R 语言（3.1.1 版本）软件，需安装及加载的程序包（pheatmap，venndiagram，hist 等），然后用 DESeq 和 edgeR 程序包进行分析，结果以热图（pheatmap）、韦恩图（VennDiagram）hist、PlotMA 等表示。具体的差异基因分析策略参考 oshlack 等报道的方法 [1]。差异基因的判断标准：1- 表达量在 2 倍以上或者 0.5 倍以下，2-P<0.05,3- 基因排名在前 10%。TCGA 数据分析方法 TCGA 数据水平及类型

以肝癌为例实战数据检索

进入 TCGA 主页（点我进入）---Lunch Data Portal---Download Data---Data Matrix---Filter setting: select a disease (LIHC-liver hepatocellular carcinoma),Data Type(RNA Seq), platform: genome wide mRNA levels (Illumina mRNA-seq), microRNA levels (Illumina microRNA-seq),Tumor/Normal(tumor-matched or normal-matched) --- Apply---Color cells by (tumor/nomal)--- 下载。

本次下载共得到癌组织芯片信息 17 张，正常组织芯片信息 9 张，共 26 张。

表达谱差异基因

2.1 基因分布

对所下载的 26 张芯片进行 hist、plotMA 分析结果见图 1。

Hist 图反映的是每个统计后 P 值的分布规律，图中可看出 P 值接近 0 处频率很高，反映差异基因的数量很大。PLotMA 图反应的是基因表达量的分布规律，图中红线代表与正常组织比较表达量无差异的基因，红线以上表示表达量升高的基因，反之表示表达量下降，由图可以看出大部分差异表达基因属于高表达。

图 1 PlotMA 和 hist 图。左图显示的 PLotMA 图，图中红线代表与正常组织比较表达量相同的基因，红线以上表示表达量升高的基因，反之表示表达量下降。

2.2 差异基因热图

分别用 DESeq 和 edgeR 程序包对下载的 26 张芯片信息进行热图（pheatmap）分析，结果见图 2。由于符合差异基因判断的基因较多，热图中右侧基因名称无法清晰显示，图 3 列出 DESeq 方法差异基因中的 30 个。

Fig2. 左图显示用 DESeq 方法找到的差异基因热图，右图显示用 edgeR 方法找到的差异基因热图。红色代表基因表达上调，绿色代表基因表达下调。

Fig.3 DEseq 方法找到的差异基因中的 30 个基因热图。红色代表基因表达上调，绿色代表基因表达下调。

2.3 共同差异基因

图 4 显示的是用 DESeq 和 edgeR 方法寻找差异基因的韦恩图。图中我们可以看出用 DESeq 方法一共找到 719 个差异基因，而用 edgeR 方法找到 4413 个差异基因，两种方法都鉴别出的共同差异基因 713 个，包含三个表达下降（MT1B、BMP10 和 SYT10）和 710 个升高的基因（ALB、HP、FGB 等）

Fig.4 用 DESeq 和 edgeR 方法寻找差异基因的韦恩图。蓝色代表 edgeR 方法找出的特有基因，橘黄色为 DESeq 方法寻找出的特有基因，中间粉红色部分为两种方法共同鉴别出的差异基因。

2.4 兴趣基因验证

本次共检索到 719 个癌和正常组织的差异基因，通过差异倍数及相关文献可以确定自己感兴趣的基因，进行大样本的验证。

作者语

本研究以肝癌为例介绍了 TCGA 的基本情况包括数据处理、整合、数据水平及类型、统计分析方法，可以全面认识 TCGA。

文章结合了当下最热的生物信息学理论介绍了一种新的发现肿瘤差异基因包括 mRNA、micRNA、拷贝数变异等，该方法相较于传统的芯片筛选具有样本数量大、费用小、分析简单等优势，为更多的人进行大规模的肝癌基因组学研究以及基于基因组学的后续功能研究提供了可能性。

但 TCGA 也有自己的不足：免费版 TCGA 数据不包含患者基本情况及预后；只能描绘静态的突变或变异；不能反映基因水平到蛋白水平的改变。

不管怎样 TCGA 项目将对癌症生物学、基因组学技术、生物储藏库和生物信息学领域的最新成果得到协调发展和最佳应用，科学合理的应用 TCGA 数据库可以使得科研工作尤其是肿瘤研究事半功倍。

注：本文主要内容来自于 2015 年 Hans Journal of Surgery，作者排序为：贾俊君，何宁，张静，姜骊，周燕飞，周琳，郑树森

参考文献

1. Oshlack A, Robinson MD, Young MD (2010) From RNA-seq reads to differential expression results. Genome Biol 11: 220.

2. Alexandrov LB, Nik-Zainal S, Wedge DC, Aparicio SA, Behjati S, et al. (2013) Signatures of mutational processes in human cancer. Nature 500: 415-421.

3. Hoadley KA, Yau C, Wolf DM, Cherniack AD, Tamborero D, et al. Multiplatform Analysis of 12 Cancer Types Reveals Molecular Classification within and across Tissues of Origin. Cell 158: 929-944.

4. Barrio-Real L, Benedetti LG, Engel N, Tu Y, Cho S, et al. (2014) Subtype-specific overexpression of the Rac-GEF P-REX1 in breast cancer is associated with promoter hypomethylation. Breast Cancer Res 16: 441.

5. Yang D, Sun Y, Hu L, Zheng H, Ji P, et al. (2013) Integrated analyses identify a master microRNA regulatory network for the mesenchymal subtype in serous ovarian cancer. Cancer Cell 23: 186-199.

6. Brennan CW, Verhaak RG, McKenna A, Campos B, Noushmehr H, et al. The somatic genomic landscape of glioblastoma. Cell 155: 462-477.

本文转自公众号：科研论文时间

编辑：冯宁

试一下我的差异分析软件

我本身是不喜欢把差异分析这种需求包装成软件的,甚至它都算不上软件.当然,我也很不太喜欢写软件(需要考虑太多的用户意外),不过,总有一天我还是得面对.为什么让大家试一下我的 `差异分析软件` ,其实是想 ...
居然可以把rpkm这样的归一化并且带小数点的转录组表达量矩阵直接取整

rm(list = ls()) ## 魔幻操作,一键清空~ options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为 ...
TCGA（转录组）差异分析三大R包及其结果对比

最近我们最优秀的R语言讲师小洁也开启了TCGA知识库打卡之旅,分享一下她其中一个学习成果,TCGA(转录组)差异分析三大R包及其结果对比. 如果你跟着她的教程学会了相关分析,可以尝试完成一个学徒作业: ...
比较不同流程（limma/voom，edgeR，DESeq2 ）差异分析的区别

前言: 距离第一次听说生信已经十几年了,现在是邋遢大叔重新开始学代码,精力确实已不像从前,各位入坑还是要乘早.后来约莫在5年前,课题组当时有个RNA-Seq数据,lab meeting时听瑞典小哥在汇 ...
R差异分析知识点

差异分析包含两类数据:芯片数据+测序数据芯片数据:limma包分析测序数据:edgeR包+DESeq2包分析 edgeR包+DESeq2包分析counts数据 counts为数值型,整数 FPKM ...
手把手教：28个基本笔画及相关例字的写法

28各个基本笔画形态及例字第一期总览左垂点.竖点挑点和撇点左尖横和右尖横短横和长横曲头竖和左斜竖垂露竖和悬针竖平撇和短斜撇右点和左点长斜撇和竖直撇竖弯撇和斜捺两种横折的写法与应用 ...
手把手教 | 如何设计高性能数据库表

回复"面试"获取全套面试资料如何斩获offer?如何提升技术?看看我的案例吧尽管我们不是DBA,但我们平时都会涉及到数据库表的设计,那么我们该怎么设计呢?,表名怎么取?字段名怎 ...
手把手教你用R语言下载TCGA数据：UCSCXenaTools – sci666

各位朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推 ...
手把手教你下载TCGA数据（代码+视频+答疑+服务）

现在TCGA数据下载的代码满天飞,例如以使用TCGAbiolinks下载为例: if (!requireNamespace("BiocManager", quietly = TRU ...
老师傅手把手教你清洗摩托车化油器，全图示

许多摩友换机油挺勤快,但清洗化油器的重要性却认识不足,有的一年也不清洗一次,导致化油器在经过长时间的使用后,量孔中有许多沉淀和胶质,浮子室掺杂了许多杂质或水份.这就是摩托车难启动或无法启动.油门响应迟 ...
8步手把手教你学会薪酬设计

上次说到薪酬诊断方法,就像医生看病一样,有问题需要良方下单开药,方能治理企业"顽疾",今天就聊聊如何进行薪酬设计. Part 1薪酬结构定义广义结构:对统一组织内部的不同职位或者 ...
全图示手把手教你排除宝马F650GS小链异响故障

作者:摩托中国崔力根朋友的一辆宝马650GS摩旅回来发现小链条部位有异响,自己买了小链让我帮他换. 当拆开发动机上盖以后,发现小链并没有拉长,反而是因为液压张紧器失效引起的. 正常的张紧器是两段组 ...
手把手教你安装踏板摩托车普利珠（全图示）

作者: 摩托中国高泽睿取下螺丝,配合利用橡胶锤或木锤,把边盖取下,不用怕,这不算开发动机. 夹持器使用夹持器,相当于我常说的卡钳,使用这种夹持器可避免卡钳损坏固定盘上叶片的可能,结合使用17的套 ...
手把手教你“五步”测量摩托车缸压

作者:摩托中国缸压表有许多小伙伴不知道如何使用气缸压力表测量缸压,今天我就手把手的教你一下,共分五步,按步走就可以了. 第一步:发动机运转至正常温度,冷却液的温度85-95度. 第二步:拆除全部火 ...

手把手教你 TCGA 数据库使用：以肝癌为例

相关推荐