TCGA的28篇教程-早期泛癌研究
长期更新列表:
使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
TCGA的28篇教程-数据挖掘三板斧之ceRNA
TCGA的28篇教程-所有癌症的突变全景图
TCGA计划进行到现在,科学家们于2018年一次性发表了27篇泛癌症研究相关文章,对癌症基因组图谱的数据,以及癌症转录组学、蛋白质组学、甲基化组学、临床数据进行了综合分析,挖掘出其中的有效信息,成功绘制出泛癌症图谱(Pan-Cancer Altas)。
这些最近的研究当然是纳入了全部的33种人类癌症、11000余例病例,但是早期(2014-2015)其实就有过类似的泛癌研究,但是纳入的比例可能就5000例左右,这里我就进行简单的介绍。
主要是研究肿瘤纯度,拷贝数变异,突变全景图,驱动突变,肿瘤异质性。我这里挑选第一个肿瘤纯度的泛癌研究进行解读:
pan-cancer系列之肿瘤纯度
发表于: 2015 Dec 4. doi: 10.1038/ncomms9971
众所周知,肿瘤样品纯度是很有限的,包括围绕在肿瘤细胞周围的各种免疫细胞,还有肿瘤微环境其它细胞。
作者团队在这里对TCGA计划的21种癌症的超过10000个样本系统性的分析了肿瘤纯度
数据来源
We obtained gene expression profiles (RNA-seqV2), DNA methylation profiles (HumanMethylation450) and immunohistochemistry (IHC) analysis for 9,364 tumour samples and 1,958 adjacent normal samples across 21 solid tumour types from the TCGA repository
比较4种估算肿瘤纯度的方法
这里采用4种方法:
ESTIMATE, which uses gene expression profiles of 141 immune genes and 141 stromal genes6;
ABSOLUTE, which uses somatic copy-number data (estimations were available for only 11 cancer types)7;
LUMP (leukocytes unmethylation for purity), which averages 44 non-methylated immune-specific CpG sites (Supplementary Fig. 1 and Methods);
IHC, as estimated by image analysis of haematoxylin and eosin stain slides produced by the Nationwide Children's Hospital Biospecimen Core Resource.
三种DNA, RNA and methylation-based方法估算的肿瘤纯度一致性比较高,但是都跟IHC的差异比较大。
结果文件都是在:Tumor purity estimates for TCGA samples. Tumor purity estimates according to four methods and the consensus method for all TCGA samples with available data.
Click here to view.(540K, xlsx) 下载后可以自行作图进行可视化,粗略看起来肿瘤纯度平均值在0.8左右,如下图:
不同肿瘤纯度方法的归一化
全称是:consensus measurement of purity estimations (CPE)
这里的归一化很简单, CPE is the median purity level after normalizing levels from all methods to give them equal means and s.d.'s (75.3±18.9%).
后续分析都使用的是CPE值,具有替代性。
然后作者通过分析发现 median purity levels and median mutational burden 具有非常好的相关性,如下:
肿瘤纯度和其它临床信息的关联性
这里作者这里了722种临床信息,其中299种是不同肿瘤种类特有的,最后发现sex, age, ethnicity, alcohol use and smoking 这些指标跟肿瘤纯度无关,不过只要是统计分析,或多或少都会得到一些显著性指标的,作者毫不例外的在正文描述了那些显著性的。
当然,少不了的是生存分析结果。
校正肿瘤纯度对其它NGS组学分析结果的影响
比如之前的表达数据的聚类,看看是否聚类结果其实是受到了肿瘤纯度的摆布。
是否有些基因的表达量是跟肿瘤纯度相关的。
是否肿瘤纯度会影响差异分析结果,所以作者使用DESeq2包来引入纯度这个变量进行校正。
可以参考去除batch effect的用法,这里的肿瘤纯度这个连续变量可以根据高低进行分组设置为离散变量即可。
使用limma
包的removeBatchEffect
来处理。
countData
: 表达矩阵
colData
: 样品分组信息表
design
: 实验设计信息,batch
和conditions
必须是colData
中的一列
dds <- DESeqDataSetFromMatrix(countData = data,
colData = sample, design= ~ batch + conditions)
dds <- DESeq(dds)
## 数据集小于30 -> rlog,大数据集 -> VST。
rld <- rlog(dds, blind=FALSE)
rlogMat <- assay(rld)
rlogMat <- limma::removeBatchEffect(rlogMat, c(sample$batch))
#VST, remove batch effect, then plotPCA:
vsd <- vst(dds)
plotPCA(vsd, "batch")
assay(vsd) <- limma::removeBatchEffect(assay(vsd), vsd$batch)
plotPCA(vsd, "batch")
代码比较简单,思路最重要。
DESeq2为count数据提供了两类变换方法,使得不同均值的方差趋于稳定:regularized-logarithm transformation or rlog(Love, Huber, and Anders 2014)和variance stabilizing transformation(VST)(Anders and Huber 2010)用于处理含有色散平均趋势负二项数据。
结果如下:
此文章完全是数据分析,值得学习。
还有几个其它文章的解读,就不罗列了:
值得注意的是,这些早期泛癌研究都是针对于肿瘤的突变信息,而我们一直强调过,TCGA计划是纳入了下面这些类型数据,包括:
DNA Sequencing(包括全基因组和全外显子组的maf格式somatic突变数据)
miRNA Sequencing (表达矩阵)
Protein Expression(表达矩阵)
mRNA Sequencing(测序的表达矩阵)
Total RNA Sequencing(表达矩阵)
Array-based Expression(芯片的表达矩阵)
DNA Methylation (25/450/850K的甲基化芯片或者WGBS)
Copy Number(主要是SNP6.0芯片,还有测序后计算的拷贝数变异情况)
理论上,它们都是可以被拿来做泛癌研究。