FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具
今天给大家介绍一个工具FunRich,FunRich (Functional Enrichment analysis tool) 是一个主要用于基因和蛋白质的功能富集和相互作用网络分析的独立的软件工具,我们前面介绍了TCGA数据库的各种数据下载与整理,获得的表达矩阵可以绘制热图,可以进差异分析,差异分析获得的差异表达基因,可以用于后续的KEGG ,GO等分析,我们这里就介绍FunRich工具,可能大家之前都用DAVID这个数据库,不妨试试FunRich这个工具,功能很强大。
一.软件下载
网址:http://funrich.org/download
该软件下载后,无需安装,解压即可使用,是不是很方便。
二.软件首页
我们后面一一介绍。
三.导入数据
点击Add dataset ,粘贴我们的基因。我们也可以导入数据集(基因集),可以是我们差异分析获得的差异表达基因【参考文章:TCGA数据库:GDCRNATools包下载数据、处理数据以及差异分析,一文就会TCGA数据库基因表达差异分析】。这里我们以limma包和edgeR包差异的分析结果为例。
点击Apply,我们可以看到,有些基因在数据中没有。
点击OK后,如下图,我导入了890个基因,数据集里面的基因名和数据库自带的背景数据集基因名可能会不符,只有761个。
点击Manage会显示符合的基因列表,可以复制下来。通过Excel中的VLOOK-UP函数与自己原基因列表比较找到不符合的基因,通过其他数据库,找到另外的基因名,再重新导入,也可以忽略。这里就忽略了。我们还可以点击Remove可以删除掉这个数据集,当然,这里就不移除了。
同样的方式,我们导入limma分析的差异基因,这样就有2个数据集啦。
四.分析
1.韦恩图绘制
在Venn Diagram栏中,点击Venn,选择要分析的基因列表,我们选择limma和edgeR数据集。
点击OK,我们就可以得到一个图啦
我们把鼠标放在数字上,点右键,会出现3个选项,点击show genes,可显示对应的基因列表。点击Export to Excel file导出为Excel文件。如果想进一步分析,点击use as a new dataset,会出现一个名为selected的新的基因集,点击OK。
作为新的数据集后,会在左侧显示数据集。
对于图的美化可以在Edit color里可以自己选择自己喜欢的颜色进行修改。这个图可以通过点击Save venn中的Save直接保存。
2. Gene enrichment:
在Gene enrichment栏,点击Analysis,选择要分析的数据集,这里我们选择limmaANDedgeR这个数据集,我们可以进行GO分析,也可以选择Pathway分析和结合的转录因子分析等,功能是不是很强大?在这个页面还可以选择要显示富集的前多少个功能,默认选择前6个。
结果如下:会显示前6个富集的细胞组分,基因富集所占的百分比和p值,右侧是每个组分的列表。
在Chart Type中,我们可以选择显示的图的类型,Column chart可显示柱状图。
Pie chart显示饼图。
我们还可以比较上传的数据集的功能,如我们比较两个limma和edgeR包分析的差异基因数据集的细胞组分:
结果如下:
也可以比较分子功能:
点击Fold会进行两个数据库差异功能基因变化的倍数,可以选择输入的数据库比较,也可以与背景数据库比较。如我们这里在上面的复选框和下面的复选框分别选择我们输入的两个数据集进行分子功能的比较,点击OK。
假设我们选择与背景数据库进行生物学过程的比较。
结果如下:
横坐标是生物学过程,纵坐标是变化的倍数,同样右侧会有基因列表,这里不展示。所有分析结果的列表都可以通过Export result按钮以Excel表格的形式下载。
3.互作分析模块
结果如下,看上去不是那么的好,比较是演示数据嘛。
假设我们勾选节点信息:
结果是这样的:
图片不美观,可以在Edit这里可以自己对互作网络图的格式进行编辑。同样可以导出数据,利用其它软件绘图,比如Cytoscape。
4.Heatmap模块
Heatmap也可作热图,可以用已上传的数据集,可以基于已存在人类蛋白质组学数据绘制热图,也可以用在Select file临时上传新的数据集
上面是聚类热图。下面是基于已存在的蛋白质组学数据,点击OK,出现的热图如下:
纵坐标是在各个器官表达水平,横坐标是基因名,红色代表高表达。蓝色代表低表达。这个热图也可以修改颜色,下载保存。
5.Vesiclepedia模块
在Vesiclepedia模块,点击load data可以下载外泌体中包含的内容物,包括蛋白、脂质、miRNA和mRNA的情况,以Excel表的形式保存。
我们这里以miRNA为例,点开下载的表格。
可见的内容包括miRNA的名称,PubMed ID,样本来源,获取年限和对这个miRNA作用的简单描述,点击Pubmed ID可以连接到Pubmed发表的这篇文章,还可以超链接到Vesiclepedia数据库。
Vesiclepedia,一个胞外囊泡分子数据(脂质、RNA和蛋白质)的手工检索工具库,目前包含来自于过去一些年份文献中发表的341个独立研究的35264个蛋白,18718个mRNA,1772个miRNA、342个脂质条目,还可以根据物种、囊泡、分子和样品类型浏览和检索。而且数据库是公开的,允许用户根据不同的搜索标准查询和下载EV cargo、 EV分离和表征模式,生物物理和分子特性以及EV-METRIC列于数据库中,帮助生物医学科学家评估EV制剂的质量和获得的相应数据。此外,基于FunRich的Vesiclepedia插件可以帮助用户进行数据分析。我们下载的数据中,点击Vesiclepedia 117,在Vesiclepedia数据库我们不仅可以看到Vesiclepedia 117包含的miRNA,也可以找到其中的蛋白/mRNA。
下载的蛋白数据也差不多:
6.miRNA富集分析模块
miRNA富集分析模块的功能很强大,对于不会R语言的同学来说,简直太好啦,可以对miRNA功能进行富集分析,也可以找miRNA的靶基因,关于非编码RNA的基础知识,可阅读文章:医学科研实验基础知识笔记(十一):非编码RNA,也可以找输入基因集的靶miRNA。如第一步所示,先需要上传一个miRNA的列表。这里我们也以前面TCGA数据库:GDCRNATools包下载数据、处理数据以及差异分析文章中分析的方法得到的差异miRNA进行分析。
富集分析方法与前面的功能基因是一致的,就不多说啦。重点看下面。
点击Find targets 可以出现miRNA的靶基因列表,左侧是每个miRNA所分别对应的靶基因,右侧是总的靶基因。
我们输入了100个miRNA,这100个miRNA 有5886个靶点。
点击Make datasets可以产生一个新的表格,如下图,各列可以通过点击列名进行排序,然后复制下来。点击Export to file表格可以下载为Excel格式。
除了可以通过miRNA预测靶基因以外,FunRich也可以通过基因找靶向的miRNA,我们点击Find miRNA,选择一个刚刚的数据集:limmaANDedgeR,点击OK。
与miRNA靶基因列表类似,左侧是每个基因对应的miRNA,右侧是所有的miRNA,同样,这个表格转为可以排序的新表格,也可以下载。
功能是不是很强大??有没有get到???
7.基因ID转换
在ID conversion 中,点击Convert,选择要转换的基因列表,选择转换成的gene ID格式,点击Convert,开始转换。
转换后:
同样可以导出:
记得引用文献:
1. Pathan, M., Keerthikumar, S., Chisanga, D.,et al. (2017) A novel community driven software for functional enrichment analysis of extracellular vesicles data. J Extracellular Vesicles. 1:1321455.
2. Pathan, M., Keerthikumar, S., Ang, C.S., et al. (2015) FunRich: a standalone tool for functional enrichment analysis. Proteomics.15, 2597-2601.