2008年的癌症panel测序研究的重要图表,现在一个maftools全部搞定
看到发表在nature的 Article | Published: 23 October 2008 ,文章标题很简单,是:Somatic mutations affect key pathways in lung adenocarcinoma ,NGS领域以及TCGA计划新秀,大名鼎鼎的Li Ding 是这篇文章的一作。现在如果你检索一下肺癌相关肿瘤外显子研究的话,简直不要太多,肺鳞癌以及肺腺癌都是。
样本队列以及测序量
本研究纳入 188个病人,只关注623个基因,属于癌症panel测序研究。
We selected 188 primary lung adenocarcinomas, each containing a minimum of 70% tumour cells as determined by study pathologists.
We screened for somatic mutations in 623 candidate genes comprising known oncogenes and tumour suppressor genes, protein kinase families, and genes in regions of copy number alteration, focusing on coding exons and splice sites
肿瘤突变位点及基因
这个ngs下游分析拿到maf文件,走肿瘤外显子流程即可,我们在生信菜鸟团有详细教程和代码了。
We have identified 1,013 non-synonymous somatic mutations in 163 of the 188 tumours, including 915 point mutations, 12 dinucleotide mutations (mutations affecting two consecutive bases on the same allele), 29 insertions and 57 deletions, with insertions/deletions (indels) ranging from 1 to 23 nucleotides. The point mutations include 802 missense, 75 nonsense, 1 read-through and 37 splice-site mutations
A set of 12 genes was found with significantly higher frequencies of nonsense, splice-site and frameshift mutations (P < 0.1), suggesting that they were candidate tumour suppressor genes.
肺腺癌特异性突变基因
其实就是看哪些基因在作者选取的肺癌病人群体里面发生的概率高而已。
We identified a total of 26 significantly mutated genes, among them 17 genes are designated as significant by at least two approaches.
如下所示:
然后就集中精力一个个介绍这些基因,分成putative tumour suppressor genes和Possible proto-oncogenes来写作。
基因突变共同发生以及互斥现象
我不太清楚这篇文章是不是第一个原创的这个分析点,毕竟这个是2008的nature文章了,十多年过去了,现在这个分析是肿瘤外显子标配了,拿到maf文件后,简单走maftools这个R包就可以拿到基因突变共同发生以及互斥现象,下面的热图是一种展示方式:
我们的TCGA系列教程里面有maftools代码,当然了,你看它的最新文档其实是最好的学习方法。学徒作业:找到这篇文章的突变数据,然后走maftools,并且绘制如上所述的热图。
与拷贝数芯片数据和基因表达量数据整合分析
实际上这个项目不仅仅是癌症panel测序研究,其实包括;Subsets of the TSP tumour collection were analysed using SNP array (n = 383), re-sequencing (n = 188) and gene expression array (n = 75).
这个时候需要去仔细研读文章是如何对SNP array分析后拿到拷贝数的啦,毕竟是上古时期的文章,他们采用的芯片现在估计没有多少人会分析了。当然了,基因表达量芯片肯定没有问题的。数据在:GSE12667 ,使用的是 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array芯片,大家都是很熟悉了。2008的时候还不流行癌症的分子分型。
突变影响的信号通路
其实跟表达量矩阵的差异分析后的功能注释一样,突变的基因也是可以进行 Kyoto Encyclopedia of Genes and Genomes (KEGG) pathways注释分析,既然是肿瘤病人的测序分析结果,那么肿瘤相关通路有问题也是符合情理的,包括:
MAPK signalling
p53 signalling
Wnt signalling
cell cycle
mTOR pathways.
如下图:
重要角色描述每个通路突变的基因,在多少个病人里面突变,突变的形式。
突变与肺腺癌病人的临床表型
最后肯定是要关联到临床表型啦,看看有没有哪些基因能显著的预测预后,或者其它。
2018年的maftools搞定全部图表
时代不一样了,回顾这篇2008年的nature文章,可能那个年代的人没有接触ngs,没有肿瘤测序太多的背景,看到该文章可能会惊若天人,但是在如今的我们看来,无非是走maftools包装好的几个函数罢了。
文章是:2018. Maftools: efficient and comprehensive analysis of somatic variants in cancer. Genome Resarch PMID: 30341162
1 Introduction
2 Generating MAF files
3 MAF field requirements
4 Installation
5 Overview of the package
6 Reading and summarizing maf files
7 Visualization
8 Processing copy-number data
9 Analysis
10 Variant Annotations
11 Set operations
12 Pre-compiled TCGA MAF objects
13 References
流程示意图如下:
这个R包工具里面的每一个函数,在过去的十多年,都是一篇文章, 很多还是CNS子刊级别的。
还等什么呢,阅读原文学习它吧:http://www.bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.html