综合性富集分析数据库

1.写在前面

对于组学的数据,我们经常在得到一组的候选的数据之后,往往下一步经常都会去做富集分析来了解这些目标数据的具体功能。由于现在有各种各种各样的组学,比如转录组,蛋白质组,miRNA等等。因此我们就需要基于不同的组学使用不同的工具进行富集。这样的话,我们就需要掌握不同数据库的时候。今天就来给大家介绍一个可以对不同组学数据来进行富集分析的数据库:GeneTrail(http://genetrail.bioinf.uni-sb.de/epi_upload.html)

这个数据库可以对四种不同的组学进行分析:1) 转录组;2)蛋白质组; 3)miRNA组学;4)基因组(SNP);

同时也提供了四种其他组学的分析流程:1)表观遗传组学;2)单细胞组学;3)时间序列;4)基因调控组学

2.富集背景数据库介绍

我们之前对于富集分析有一个简单的介绍。本质上富集分析还是要基于不同功能注释的数据库来进行分析。因此了解分析的背景数据库可以更方便我们了解分析的结果

  1. 转录组数据:对于转录组数据而言,很多注释数据都是给予转录组的,所以我们可以进行多个数据库的功能注释,其中包括GO数据库;通路相关数据库基因组位置注释;调控标靶数据库;其他注释数据库;细胞标志物。

  1. 蛋白质组:对于蛋白的注释数据库就没有那么多了。基本的分析数据库就只有:GO分析、通路分析、其他数据库。

  1. miRNA:关于miRNA功能的注释,主要是基于miRDB以及miRTarBase两个数据库的注释来的。
    PS:miRNA功能富集的数据库随着miRNA研究的增多也越多越多。我们之前也介绍一个适用miRNA做GSEA分析的数据库: miRNA富集分析数据库

  1. SNP:关于SNP注释的数据库就比较少了,主要还是集中在GWAS以及pheWAS两个数据库

数据库操作

由于数据库操作方式都类似,我们就选择最普遍适用的转录组的选择来进行演示。

3.1 数据上传

对于数据的上传,数据库主要分成了三种上传模式:

  1. GSE号输入:如果我们要分析的是GSE数据库的数据,可以直接输入GSE号码即可直接进行分析

  2. 文件上传:我们可以上传自己想要分析的文件来进行富集分析。主要注意的是,这类的文件需要是txt格式的,同时是以tab为分隔符

  3. 文本复制:除了上传也可以直接把想要分析的内容复制到网站上面

另外对于数据的富集分析,我们之前介绍过,目前的主要的算法还是分ORA以及GSEA两种。这两种对于数据的上传要求是不一样的。如果我们只是想有ORA分析。只需要上传基因名即可。如果我们要做GSEA分析的话,则需要上传基因名+相对于的基因排名。同样的如果我们有原始数据,数据库可以基于原始数据,自己来分析进而进行富集分析。

由于可以选择原始数据,所以我们就这里就上传原始数据来进行分析。对于原始数据的要求,第一列一定是基因名,第一行则一定是样本的分组信息。

3.2 数据分析

在上传的原始数据之后,我们需要对样本定义进行,哪些是control,哪些是case。

3.3 选择分析的算法

在定义好分组之后,就需要来定义对于分组进行什么样的差异分析同时对于差异的结果进行什么样的富集分析以及富集分析的数据库是什么。

3.4 结果展示

对于不同分析的算法结果展示是不一样的。对于GSEA而言,现在是可以看到一个汇总的图片

同样的,对于具体的某一个条目,我们可以看到具体的结果以及GSEA图片

另外,相较于其他数据库而言,这个数据库的富集分析,还提供了一个反富集的选项。即我们在之前的分析当中是可以知道候选基因主要作用于哪个通路。这里可以反向的分析出某一个基因和哪些通路有关。这样就方便我们来进行筛选了。

使用场景

由于数据库提供了多个组学的分析,所以对于任何组学想要做富集分析的需求,都可以使用。另外数据库提供了上传原始数据来进行分析的选项。所以方便不会做差异的同学进行GSEA分析。

(0)

相关推荐

  • TCGA数据分析系列(二):LinkedOmics

    今天继续我们TCGA在线数据库系列.今天介绍的数据库是LinkedOmic,http://www.linkedomics.org/login.php可谓是航母级数据库,没有做不到的,只有想不到的.话不 ...

  • 科研 | NC:使用iDEA方法对单细胞转录组数据进行差异表达和基因富集分析

    编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 差异表达分析(DE)和基因富集分析(GSE)常用于单细胞转录组研究中.本研究中,作者开发了一种集成且可扩展的方法--iDEA,可通过分 ...

  • 1分钟内找出人类的转录因子敲除后的基因表达谱(KnockTF数据库)

    转录因子(Transcription Factor, TF)及其靶基因在人类疾病和生物学过程中起重要作用,转录因子敲降/敲除前后的基因表达谱分析是获得转录因子靶基因.探索转录因子功能的最重要策略之一. ...

  • 转录组学习八(功能富集分析)

    任务 选择p<0.05而且abs(log2FC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析. 把表达矩阵和分组信息分别作出cls和gct文件,导入到G ...

  • 非肿瘤生信,零代码发到5+SCI?凭啥?学会这个套路!让你的科研起飞!

    解螺旋公众号·陪伴你科研的第2618天 非肿瘤多数据集联合分析 在进行生信分析的时候,如果搜索到好几个GEO数据集,不知道大家有没有这些困惑: 多个GEO数据集,应该分别分析,还是合并以后再一起分析呢 ...

  • TCGA数据分析系列:LinkedOmics数据库

    今天继续我们TCGA在线数据库系列.今天介绍的数据库是LinkedOmic,http://www.linkedomics.org/login.php可谓是航母级数据库,没有做不到的,只有想不到的.话不 ...

  • miRNA富集分析数据库

    miRNA富集分析数据库

  • 综合性tRFs分析预测数据库

    前两天我们对于tRFs的功能同时也推荐了几个关于tRFs的数据库.其中包括tRFs在TCGA当中研究的数据库以及tRFs靶基因预测数据库.这些数据库都是基于分析好的数据来的.但是如果我们有自己的数据, ...

  • [数据库介绍]g:profiler 多ID富集分析

    基因组学分析在得到差异表达基因之后,最常做的还是富集分析.通过富集分析我们可以了解相关基因集主要在形式的功能是什么.目前用来做基因富集分析的工具很多.这次介绍的这个叫g:profiler(https: ...

  • 肿瘤细胞系综合性分析数据库

    在昨天的推送当中,我们介绍了现在的 CCLE 数据库的一些基本信息.同时也提到了一个用来分析 CCLE 的在线的数据库:DepMap Portal (https://depmap.org/portal ...

  • 肿瘤相关miRNA综合性分析数据库

    对于 miRNA 的数据库而言,之前我们介绍的 miRNA 的数据库主要还是集中在 miRNA 靶基因预测方面的. 1. [[miRactDB-肿瘤当中miRNA靶点预测数据库]] 2. [[miRN ...

  • 用这两个数据库做GO富集分析比DAVID强多了

    相信很多人都知道用DAVID做GO富集分析总是被吐槽,数据更新实在是太慢了,太慢了,但是很多人又不想用R包和Cytoscape来做,因为很多时候安装包太麻烦了,还是觉得在线分析比较好.下面我们就推荐两 ...

  • m7G与疾病相关性分析数据库

    说起RNA甲基化,在调控基因表达.编辑.稳定性及降解等方面扮演重要角色,相比于 DNA 甲基化,RNA甲基化显得更加复杂,普遍存在于各种生物中.主要包括m1A.m5C.m6A及m7G等.其中m6A甲基 ...

  • RNA富集分析

    这部分开始进行基本的富集分析,两类 A:差异基因富集分析(不需要表达值,只需要gene name) B: 基因集(gene set)富集分析(不管有无差异,需要全部genes表达值) ######## ...