TCGA多组学关联分析数据库

之前我们介绍了很多TCGA方面的数据库。其中GEPIA只能用来分析表达数据库各个方面的。cBioPortal可以进行多组学分析,但是一般都是分析自身基因和自身突变等等的关系。至于CVCDAP分析的则是单一组学方面的各种分析。以上这些数据库虽然各有各的用处,但是如果我们想要做多组学之间的相关分析的话,比如我们想要做TP53和miRNA之间的相关性的话,那以上的这些数据库就不能用了。所以今天就来给大家介绍一个多组学关联分析的数据库:
LinkedOmics (http://www.linkedomics.org/login.php)

01

内置数据集介绍

在使用一个工具之前,首先还是要了解这个数据库里面包括哪些东西的。关于LinkedOmics而言,主要包括的还是TCGA的内置数据。由于是要做多组学的关联分析的,一定要对于TCGA数据包括哪些数据要有一定的认识。这样才能方便我们来进行交叉分析的。

关于TCGA的数据库的话,这个数据库有一个简单的介绍。其中这个里面需要简单说明的是,在临床参数这个部分,这个数据库知识包括了一些传统的数据集比如:TNM分析、组织分型、预后信息等等。其中一些比较个性化信息。这个就没有的,如果想要分析个性化的东西,就需要下载数据库来分析了,在线分析的话,可以使用之前反复提到的UCSC XENA。

02

基本操作

在进行基本操作之前,我们需要在这个数据库里面注册一个账号。这个大家自行注册就行。账号可以保存我们分析的结果。这样如果是相同分析的话,可以在账号里面查看。如果不需要只是简单的使用的话,使用Guest账号即可。

关于数据库的使用一共也就分这么几步,1) 癌种选择;2) 数据类型选择;  3) 需要分析的目标; 4) 想要交叉分析的另外一个数据类型; 5) 统计分析。

为了更好的演示,我们这里假设有一个课题是想要在乳腺癌当中寻找和hsa-let-7c这个miRNA相关的基因

2.1 癌种选择

由于是分析乳腺癌,我们选择乳腺癌的数据集。在TCGA当中,乳腺癌的简称是BRCA。所以这里我们选择乳腺癌。

2.2 目标数据集选择

由于我们要进行miRNA的分析。所以这里我们首先要选择miRNA检测的数据。我们这里选择ALL 的话可以看到这个癌种的所有的数据集。这里我们我们在Data Type选择想要的数据类型。

这里在确定完数据集之后,我们默认选择的是所有癌症样本。如果我们想要进行癌症患者某一个类型的分析的话,数据库官方归纳了几个类型。如果我们想要分析的类型在这个里面,可以进行选择。例如这里,我们可以基于ER,PR,HER2三种受体来进行分组。

2.3 输入目标基因

在选择完数据集之后,我们就需要指定想要分析的miRNA了。我们可以直接搜索hsa-let-7c

2.4 选择靶向数据集

在选择完目标基因之后,我们就需要继续选择靶向分析的数据集了。由于是要分析基因表达,所以我们就可以选择基因RNA-seq即可。

2.5 分析方法选择

在选择好以上的靶标和靶向数据库之后,我们就需要进行统计分析了。由于miRNA的表达量和RNAseq当中基因的表达量都是连续性变量,所以我们用到的统计方法就是相关分析。关于相关分析,常用的就是spearman和pearson。

一般而言,偏向正态的用Pearson。偏态的用spearman。一般而言,测序的原始数据都是偏态的。但是我们看到在选择数据的时候,所有的测序数据都是经过log2转化的。这样就类似于正态的了。所以我们选择pearson即可。

03

结果查看

在分析完之后,就到了这个界面,这里我们需要观察分析状态,如果状态变成了complete,就说明分析完成了。这个时候,点击View就可以查看了。

在点击查看之后,我们就可以获得这次分析的结果。这里,我们可以获得相关的分析结果和相关结果的热图。

进一步的,如果我们想要对这些结果进行富集分析的话,LinkInterpreter里面进行。这里的富集分析是基于WebGestalt进行的。具体这个数据库怎么操作可以查看我们第二个帖子。

数据库使用场景

以上就是这个数据库主要的使用场景。对于这个数据库,如果我们想要进行多组学交叉分析的时候还是挺有用的。有一个缺点就是其能分析的临床参数还是少了一些。这个要是有需要可能就得自己分析了的。

(0)

相关推荐