TCGA的28篇教程-早期泛癌研究

2024-08-03 06:56:06

长期更新列表：

使用R语言的cgdsr包获取TCGA数据（cBioPortal）TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据（离线打包版本）TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据（FireBrowse portal）TCGA的28篇教程- 批量下载TCGA所有数据（ UCSC的 XENA）TCGA的28篇教程- 数据下载就到此为止吧 TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量 TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析 TCGA的28篇教程-整理GDC下载的xml格式的临床资料
 TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
 TCGA的28篇教程-数据挖掘三板斧之ceRNA
TCGA的28篇教程-所有癌症的突变全景图

TCGA计划进行到现在，科学家们于2018年一次性发表了27篇泛癌症研究相关文章，对癌症基因组图谱的数据，以及癌症转录组学、蛋白质组学、甲基化组学、临床数据进行了综合分析，挖掘出其中的有效信息，成功绘制出泛癌症图谱（Pan-Cancer Altas）。

这些最近的研究当然是纳入了全部的33种人类癌症、11000余例病例，但是早期（2014-2015）其实就有过类似的泛癌研究，但是纳入的比例可能就5000例左右，这里我就进行简单的介绍。

主要是研究肿瘤纯度，拷贝数变异，突变全景图，驱动突变，肿瘤异质性。我这里挑选第一个肿瘤纯度的泛癌研究进行解读：

pan-cancer系列之肿瘤纯度

发表于： 2015 Dec 4. doi: 10.1038/ncomms9971

众所周知，肿瘤样品纯度是很有限的，包括围绕在肿瘤细胞周围的各种免疫细胞，还有肿瘤微环境其它细胞。

作者团队在这里对TCGA计划的21种癌症的超过10000个样本系统性的分析了肿瘤纯度

数据来源

We obtained gene expression profiles (RNA-seqV2), DNA methylation profiles (HumanMethylation450) and immunohistochemistry (IHC) analysis for 9,364 tumour samples and 1,958 adjacent normal samples across 21 solid tumour types from the TCGA repository

比较4种估算肿瘤纯度的方法

这里采用4种方法：

ESTIMATE, which uses gene expression profiles of 141 immune genes and 141 stromal genes6;
ABSOLUTE, which uses somatic copy-number data (estimations were available for only 11 cancer types)7;
LUMP (leukocytes unmethylation for purity), which averages 44 non-methylated immune-specific CpG sites (Supplementary Fig. 1 and Methods);
IHC, as estimated by image analysis of haematoxylin and eosin stain slides produced by the Nationwide Children's Hospital Biospecimen Core Resource.

三种DNA, RNA and methylation-based方法估算的肿瘤纯度一致性比较高，但是都跟IHC的差异比较大。

结果文件都是在：Tumor purity estimates for TCGA samples. Tumor purity estimates according to four methods and the consensus method for all TCGA samples with available data.

Click here to view.(540K, xlsx) 下载后可以自行作图进行可视化，粗略看起来肿瘤纯度平均值在0.8左右，如下图：

不同肿瘤纯度方法的归一化

全称是：consensus measurement of purity estimations (CPE)

这里的归一化很简单， CPE is the median purity level after normalizing levels from all methods to give them equal means and s.d.'s (75.3±18.9%).

后续分析都使用的是CPE值，具有替代性。

然后作者通过分析发现 median purity levels and median mutational burden 具有非常好的相关性，如下：

肿瘤纯度和其它临床信息的关联性

这里作者这里了722种临床信息，其中299种是不同肿瘤种类特有的，最后发现sex, age, ethnicity, alcohol use and smoking 这些指标跟肿瘤纯度无关，不过只要是统计分析，或多或少都会得到一些显著性指标的，作者毫不例外的在正文描述了那些显著性的。

当然，少不了的是生存分析结果。

校正肿瘤纯度对其它NGS组学分析结果的影响

比如之前的表达数据的聚类，看看是否聚类结果其实是受到了肿瘤纯度的摆布。

是否有些基因的表达量是跟肿瘤纯度相关的。

是否肿瘤纯度会影响差异分析结果，所以作者使用DESeq2包来引入纯度这个变量进行校正。

可以参考去除batch effect的用法，这里的肿瘤纯度这个连续变量可以根据高低进行分组设置为离散变量即可。

使用limma包的removeBatchEffect来处理。

countData: 表达矩阵

colData: 样品分组信息表

design: 实验设计信息，batch和conditions必须是colData中的一列

dds <- DESeqDataSetFromMatrix(countData = data, colData = sample, design= ~ batch + conditions)


dds <- DESeq(dds)

## 数据集小于30 -> rlog，大数据集 -> VST。

rld <- rlog(dds, blind=FALSE)

rlogMat <- assay(rld)

rlogMat <- limma::removeBatchEffect(rlogMat, c(sample$batch))

#VST, remove batch effect, then plotPCA: vsd <- vst(dds) plotPCA(vsd, "batch") assay(vsd) <- limma::removeBatchEffect(assay(vsd), vsd$batch) plotPCA(vsd, "batch")

代码比较简单，思路最重要。

DESeq2为count数据提供了两类变换方法，使得不同均值的方差趋于稳定：regularized-logarithm transformation or rlog(Love, Huber, and Anders 2014)和variance stabilizing transformation(VST)(Anders and Huber 2010)用于处理含有色散平均趋势负二项数据。

结果如下：

此文章完全是数据分析，值得学习。

还有几个其它文章的解读，就不罗列了：

值得注意的是，这些早期泛癌研究都是针对于肿瘤的突变信息，而我们一直强调过，TCGA计划是纳入了下面这些类型数据，包括：

DNA Sequencing（包括全基因组和全外显子组的maf格式somatic突变数据）
miRNA Sequencing （表达矩阵）
Protein Expression（表达矩阵）
mRNA Sequencing（测序的表达矩阵）
Total RNA Sequencing（表达矩阵）
Array-based Expression（芯片的表达矩阵）
DNA Methylation （25/450/850K的甲基化芯片或者WGBS）
Copy Number（主要是SNP6.0芯片，还有测序后计算的拷贝数变异情况）

理论上，它们都是可以被拿来做泛癌研究。

单基因泛癌表达（TCGA+GTEx）

之前我们发布了单基因泛癌分析相关的文章,包括 TCGA单基因免疫相关泛癌分析 TCGA单基因免疫相关泛癌分析-进阶版本 TCGA单基因泛癌分析:富集分析结果答疑这里有单基因在每种肿瘤中的表达图,仅限 ...
Nature 子刊重磅成果 | 泛生子携顶级专家团队揭秘肺肉瘤样癌分子特征图谱

近期,中国医学科学院肿瘤医院赫捷院士团队与泛生子合作,在Nature Communications(影响因子12.121)上发表了关于肺肉瘤样癌(PSC)的重磅研究成果,依托泛生子全外显子检测(WES ...
点进来，免费帮你做单基因泛癌表达分析（TCGA+GETx）

相信绝大多数研究肿瘤的科研工作者的工作都离不开某个特定的基因,现在绝大部分的单基因的生信文章也都有这么一个图,我就随便列举一些文章的Figure1 比如再比如再比如再比如再比如再比如再比如 ...
一文带你学会如何通过多维度的分析来论证同一个假设

Multi-dimensional omics characterization in glioblastoma identifies the purity-associated pattern an ...
TCGA泛癌全基因组分析（PCAWG）介绍

所谓的泛癌分析我们都知道在TCGA数据库当中,包括了33种所有实体肿瘤的测序的结果(如果不知道的话,可以看我们今天的第二条推送哦!).我们在进行TCGA数据分析的时候,除了可以对单一的癌种进行分析之 ...
可能是最出名的TCGA表达相关数据库介绍(一)

有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能.所以就趁着这个机会给大家介绍一下GEPIA2吧. 有小伙伴后台留言说想知道 GEPIA ...
TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据

前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记 --jimmy 往期目录如下: 使用R语言的 ...
TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据

前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程! --jimmy 往期目录如下: 使用R语言的cg ...
生信小技巧第8课，加上 TCGA的28篇教程- 批量下载TCGA所有数据

长期更新列表: 视频讲解-R爬取生信软件列表到思维导图生信技巧第3课-请你务必学好R语言 broad官网出品的必须神器 IGV 资料大全,含视频生信技巧第5课-生信人必须安装的软件好神奇啊,两 ...
TCGA的28篇教程- 数据下载就到此为止吧

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...
TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量

m长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的 ...
TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...
TCGA的28篇教程-整理GDC下载的xml格式的临床资料

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案

早在 2017-03-13 我就在生信技能树推出过绘图交易专区: [有偿专区]TCGA 预后作图那个时候隐隐约约知道这是一个很大的市场,可惜人的精力是有限的, 我需要持续更新 10000+ 生物信息 ...
TCGA的28篇教程-数据挖掘三板斧之ceRNA

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...

TCGA的28篇教程-早期泛癌研究

比较4种估算肿瘤纯度的方法

不同肿瘤纯度方法的归一化

肿瘤纯度和其它临床信息的关联性

校正肿瘤纯度对其它NGS组学分析结果的影响

相关推荐