如何使用TCGA数据分析肠道菌群
我们知道TCGA数据库包括很多患者的二代测序的数据。关于二代测序。之前我们就介绍过,其实二代测序的数据是是一部分所有细胞的核苷酸序列。对于这一部分的序列,只是看我们拿什么背景物种的参考基因组,就可以比对什么就得到什么数据。因此,如果使用微生物菌群基因组,那就有可能获得菌群的相关数据。因此也就有了这篇文章。所以我们就先简单的介绍一下这个文章
这篇文章主要就是通过TCGA当中消化道肿瘤方面中的全基因组测序(whole genome sequence, WGS)以及全外显子测序(whole exon sequence, WXS)的数据利用Pathseq的算法来评估微生物菌群。不过这种基于人类测序数据的总是有一个偏差,因此文章前面绝大部分是去除这些偏移。经过详细的操作之后,就获得了TCGA肠道菌群的数据了(The Cancer Microbiome Atlas, TCMA)。
聚类分析
在经过一系列的算法的操作之后,作者获得了肠道各个样本的微生物菌群。因此也就对这些数据进行了简单的分析。首先作者使用SparCC算法来对肠道肿瘤CRC(COAD/READ)进行了聚类分析。最后发现CRC总共可以分成梭菌和拟杆菌两个聚类种群。
进一步基于两个聚类的分型,来分析不同的菌群对于其他组学RNA-seq、miRNA-seq、甲基化、RPPA的影响。寻找这些菌群可能的作用机制。
差异菌群分析以及预后相关分析
由于CRC当中包含了癌症和正常的组织。所以作者也通过了差异分析,来观察哪些菌群是和癌症的发生有关的。同时由于也包含了预后信息,所以也就进行了预后分析看哪些菌群和预后有关。
进一步的作者对差异的菌群进行了富集分析。来进一步了解这些菌群和哪些通路有关。经过分析发现CRC当中的微生物主要是和宿主免疫反应、炎症性癌症通路和细胞-细胞粘附等通路有关。
TCMA数据库
以上就是这个文章的主要内容了,当然如果是这些的话,只能说明这个文章做了啥。对于我们想要进一步挖掘的话,可能没有什么用处。但是这个文章在做完这些分析之后,还建立了一个简单的TCMA数据库(https://tcma.pratt.duke.edu/)。里面储存了作者所有消化道肿瘤组织经过过滤分析后的结果。
这个数据库主要还是一个下载数据的地方。并没有太多的其他分析。
经过这个数据库下载的肠道微生物的数据,再加上去其他地方下载其他组学的数据,那通过多组学的交叉分析。还是在挖掘出一些东西的。所以如果是研究消化道肿瘤的。可以用来分析一下哈。