TCGAG多组学联合分析数据库 / 开普饭

之前我们在介绍GEPIA的时候，说这个数据库只能用于TCGA表达数据的一些分析。但是对于TCGA数据而言，里面包括相同样本的表达、突变、拷贝数、甲基化以及临床信息等数据，所以我们其实可以利用TCGA数据库来进行多组学之间的交叉分析。今天我们就介绍一个TCGA多组学分析的经典数据库:

cbioPortal（https://www.cbioportal.org/）

数据库主界面介绍

在这个数据库的主界面上，我们可以看到包括的相关数据集。数据库已经把按照组织类型分好了，例如我们选择食管/胃。

从图中可以看到，这个数据库包括的数据不限于TCGA的数据。同时还包括一些其他发表的数据，例如在胃癌里面，就有一个日本的发表在Nat Genet上的数据集，，我们可以在数据集的后面看到具体的样本量。

我们可以点击数据集当中的饼图(

)就可以看到具体的数据集信息。例如这个日本的数据集，我们就可以看到，这个数据集是一个全外显子测序的数据，主要是用来检测胃癌和正常配对组织突变的情况。下面的一些图是基于不同的临床信息，突变频率的变化。

由于TCGA的数据比较全，所以我们就选择其中一个组织分析的TCGA的结果。

选择完之后，我们点击

就可以进行下一步了。接下来，我们就可以就要选择分析的样本了和输入想要分析的基因了。

其中第一个看到的让我们选择基因组图谱，这个默认的是突变和拷贝数。这个选项只是在后面结果绘制OncoPrint图的时候有影响，其他的对于别的分析影响不大的，所以至于下面的mRNA表达以及protein表达可以不选的。

进一步的我们要选择分析的样本了，虽然TCGA的数据做了不同组学的数据。但是也不是说作用组学做的是完全相同的样本，中间总有一两个样本做了一个组学的检测的。但是这个结果的选择对于后续的分析影响也不大，所以我们就选择所有样本。

最后就是输入基因，基因输入的话，我们可以输入多个基因同时观察这些基因的在数据集当中的变化，同时也可以输入一个基因。对于输入一个基因的时候，可以得到额外的分析结果。所以我们就选择输入TP53基因。

然后，点击Submit即可。

结果展示

结果的展示主要是通过以下内容来展示分析结果的。我们就挑其中四个主要的结果，来介绍一下这些结果吧！

关于这种图代表的含义，是来反应每个样本的基因突变情况的。在图中每一个竖杠代表一个样本。里面红红绿绿的代表样本相关的改变。具体的可以看图例。例如里面那个

代表这个样本存在拷贝数减少同时也有TP53的错义突变。

另外这个数据库也提供了添加不同临床信息以及下载的功能。这个的话，其实做出来的图完全可以在课题或者文章当中使用了。

基因突变的位置：在上面的OncoPrint图我们可以查看测序的样本是否有突变。另外对于目标基因而言，我们可以在Mutations查看具体的这个基因具体突变的位置。

数据库默认的是显示突变在基因上的位置。我们可以添加多个轨道来进一步注释这些突变的位置，例如加肿瘤热点的轨道等等……

例如下图就是X轴是mRNA的表达，Y轴是蛋白的表达，由于两个都是连续性变量，所以在结果当中显示的就是相关分析的结果。

cbioPortal数据库好的一点在于我们可以根据多选择的结果来下载目标数据。如果对于TCGA默认的分析结果不满意。完全可以自己下载下来自己分析。例如,我们查看蛋白表达和组织分型的时候，发现他们分型的结果分类很多。不是自己想要的，就可以下载下载数据，自己分析的嘛。

由于表达组的数据检索的成千上万的基因的表达量，基于这个数据量，我们就可以通过相关分析来分析和目标基因有相互作用关系的基因。之前介绍的GEPIA只能评价指定基因和目标基因的相关。这个则是可以评价制定基因所有基因的相关性。所以通过这个功能我们可以得到和这个基因相关的其他所有基因。

数据库总结

以上就是关于cbioPortal数据库使用的一些常见功能。大家都进行一些多组学分析的时候，可以使用这个经典的数据库，还是挺好用的，而且所有的分析的图片以及数据都可以下载。

TCGAG多组学联合分析数据库