TCGA多癌种数据分析整合分析
写在前面
关于TCGA的数据分析。之前我们推荐过的几个网站。其中GIPIA的话是只是可以分析基因表达的数据,而且在很多文章当中都可以用到。CbIo的在多组学的分析方面也能体现它的价值。今天就给大家再介绍一个新发表的基于TCGA数据分析的数据库。CVCDAP(https://omics.bjcancer.org/cvcdap/home.do)。这个数据库和其他数据库的不一样的地方在哪儿呢。
首先这个数据库可以做可以做多个TCGA多个癌种的整合分析。例如我们想要把COAD和READ两个肠癌的数据进行整合分析的话,上面两个数据库只能单个分析来看。但是这里的话,可以整合到一起来分析。另外的话,基本上一些常见的好看的图和分析都可以在这里自动的获得。
数据库操作
1. 数据集的选择
由于可以做癌种数据库的分析。所以这个数据库在分析的第一步就是来选择我们的TCGA的癌症。这里数据库提供了三种筛选数据集的方式:(i)癌种的筛选;(ii)基于临床信息的筛选; (iii)基于分子分型的筛选。
在癌种这里我们就按照上面说的选择TCGA-READ以及TCGA-COAD的数据。
在临床信息筛选这里的话,我们可以基于癌症的STAGE;Grade; Gender; Race; Age来进行进一步的筛选。
在分析分型筛选的部分,我们可以进行一些基于TMB;突变;拷贝数;某一个基因的mRNA表达;某一个基因的蛋白表达来进行筛选。
以上的数据筛选的过程第一步是必须的,剩下的其实都是可以不进行筛选的。在我们筛选完之后,我们点击 Submit就可以提交自己选择的数据集了。
提交完之后,我们需要对自己自定义的数据集进行命名。
保存完之后,我们就可以选择是对这个数据集来进行分析,还是说比较这个数据集和另外一个数据集的区别。如果我们单纯分析这个数据集,那就可以往下分析。如果我们需要比较另外一个数据集,那就需要再定义一个数据集。基本过程和上面是一样的。
2. 单个数据集分析结果
对于单个数据集的分析,主要是从四个方面来展示结果的。分别是:DNA基因组分析、mRNA分析、蛋白分析以及临床数据分析。这个数据结果的展示主要还是通过图形来展示的。另外如果想要分析的原始数据的话,这个数据库提供了RData(R语言保存数据的格式)。我们可以来下载。
1.DNA基因组方面的分析,主要是可以进行突变频率展示(oncoplot、曼哈顿图)、TMB相关分析、驱动基因分析等等很多目前可以做的分析。
由于可以分析的内容比较多,数据库对于每一个图也提供了简单的说明。所以我们这里就拿oncoplot来进行说明一下。
我们点击Onco-plot之后,就可以到了一个分析的选项界面。需要做的就是:选择数据集、输入图形输出的参数。对于
在我们选择好相关的参数之后,点击Run。就可以获得结果了。这样就可以onco-plot的结果了。
2.mRNA和蛋白的分析。对于单数据集的mRNA和蛋白方面的分析就没有基因组的分析花样那么多了。单分组的分析基本上就是聚类降维来看一下数据分布。所以能做的都是PCA分析、t-SNE分析以及聚类分析。
3.临床数据分析。由于我们是可以选择多癌种的,各个癌种里面的临床信息都包括的可能也就是预后信息了。所以这里我们能做的分析其实也就是预后分析了。
3.两个数据集差异分析
上面讲到的是一个数据集可以进行的分析条目。如果是两个数据集的话那就相当于有两个分组了。所以就可以进行两组之间的。同样的数据集的分析的也是基于上面的四个分布来做的。
需要注意的是,这个时候的分析是针对两个癌症数据集的,如果我们想要做癌和正常之间的分析的话,由于数据库应该是指纳入了癌的样本。所以是做不了的。
1.DNA基因组:在这个层面,我们可以进行差异的突变基因分析;共突变分析以及某一个基因上面的突变分布可视化。
2.mRNA以及蛋白层面:可以做差异分析以及差异分析可以做的可视化(热图;火山图);GSEA分析;单基因分析。
3.临床层面:临床层面就和之前是一样的也是做预后相关的分析。
需要注意的点
这个数据库在我们进行分析的时候,有时候会很长的时间。这个时候如果超过了一分钟就会转入到后台运行。
这个时候,可以在分析历史当中查看之前的分析结果。。如果分析完了。就可以再下载数据了。
以上就是这个数据库的主要内容了。主要还是来分析多癌种之间的分析。对于癌症和正常就做不了了。