DAVID跟R包注释的差异浅析

一直听说Functional Annotation Tool DAVID Bioinformatics Resources 6.8, NIAID/NIH    是可以做GO/KEGG数据库注释的,只需要用户上传自己拿的的基因集就可以,大大的方便了生物学家对数据库的使用。

因为自己都是在R里面批量做,所以没有机会使用DAVID。最近反馈结果给合作的博士后才发现,原来二者是有差异的。(因为合作的博士也不相信我的R分析结果,要用网页工具验证一波)

现在让我们一起来探索要的差异来源可能是什么吧。就拿最近的一个项目的,Mus musculus 的一个基因集来举例说明:

可以看到,我们输入了小鼠的454个基因,然后DAVID网页数据库(操作方法就不赘述,基本上就是鼠标点点点,下一步即可)结果如下:

 

同样的,因为GO数据库比较复杂,即使是仅仅关注BP,基因集也很多,我们就看前几名即可:

 

先比较第一个,可以看到DAVID数据库里面显示着有34个基因属于 cell adhesion 基因集,如下所示:

 

但是走R的注释代码,得到的结果差异非常大。首先,这个cell adhesion 基因集并不显著!这个是非常致命的冲突了,一般来说,如果仅仅是基因集的数量差异,我们可以认为是数据库版本问题。

那我们仔细看看 cell adhesion 相关的基因集,是不是有ID和名字的冲突,在我的R结果里面可以搜索到的,如下:

 

而在DAVID网页数据库结果里面可以看到的是:

 

看起来,能够拿的出来进行比较的只有:GO:0045785 名字是:positive regulation of cell adhesion,它在DAVID网页数据库被记录56个基因,然后被富集到了5个,所以是显著的。而在R的分析里面,它被记录有410个基因,被富集到的有21个

那么这个条目,GO:0045785 名字是:positive regulation of cell adhesion 到底应该是多少个基因呢?很简单,谷歌搜索就找到了官网:

http://www.informatics.jax.org/vocab/gene_ontology/GO:0045785

的确是415个基因,那么R语言包注释结果是正确的,那么问题来了,为什么DAVID网页工具的GO数据库注释结果会少那么多?

DAVID网页工具的KEGG数据库其实也是在更新

这个时候,可能很多人都会说,是DAVID网页工具不更新了,其实就算是说它不更新,也只可能是KEGG的延迟而已,并不是说它一无是处,而且它的确是更新了的。

 

在R里面是:

 

可以看到,具体的每个基因集富集到的基因数量是没有出入的,很吻合。

那么问题到底出在哪里了呢?

其实是DIRECT的问题

后来我们仔细瞅了瞅,发现问题出在DIRECT上面,也就是说GO:0045785 名字是:positive regulation of cell adhesion,在官网的确是415个基因,在R里面也是这么多,但是呢,在DAVID里面,数量只剩下56了。其它通路也是如此,都是少很多。

我没有搜索到DIRECT的相关权威的英文资料,所以自己摸索了一下。大概的意思应该是,如果一个GO通路有100个基因,但是呢,这个GO通路有几个子节点,那么它的100个基因里面就会必然有很多基因其实也属于它的那几个子节点,也会有一些基因不属于它的任何的子节点,这样的基因很少,就是DIRECT的基因啦。

这就是为什么GO:0045785 名字是:positive regulation of cell adhesion,在官网的确是415个基因,在R里面也是这么多,但是呢,在DAVID里面,数量只剩下56了。因为这个DAVID里面仅仅是看DIRECT的基因。

参考文献

  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3706743/

  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3995153/

(0)

相关推荐

  • miRNA‑mRNA调控网络发文思路

    参考文章题目:Identification of biomarkers and construction of a microRNA‑mRNA regulatory network for clear ...

  • GO分析和KEGG分析都是啥?

    前几天和大家介绍了一下GEO数据库以及使用GEO2R进行差异表达分析GEO2R差异表达分析软件.几乎现在的套路性文章在做完差异表达分析后,都会去做GO和KEGG富集分析.那么GO和KEGG都是什么?富 ...

  • 比较CCDS数据库和R包内置数据集的差异

    因为昨天看到了TxDb.Hsapiens.UCSC.hg38.knownGene 包来获取基因的坐标及长度跟其它主流数据库有差异,所以今天彻底比较一下TxDb.Hsapiens.UCSC.hg38.k ...

  • 第一个万能芯片探针ID注释平台R包

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.然后开始接近粉丝们的第二个需求,就是探针的ID注释问题.这是一个系 ...

  • 第二个万能芯片探针ID注释平台R包

    整合全部表达芯片平台的soft文件并且提取基因symbol和探针对应关系 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种biocondu ...

  • 第三个万能芯片探针ID注释平台R包

    下载全部表达芯片平台的探针的碱基序列自主注释到基因ID 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法, ...

  • Microbiome:animalcules-交互式微生物组分析和可视化的R包

    animalcules-交互式微生物组分析和可视化的R包 animalcules: interactive microbiome analytics and visualization in R Mi ...

  • R Documentation:整合的R包说明平台

    R包是我们生息分析中不可缺少的工具,在学习和使用过程中,我们常会遇到:无法找到解决实际需要的函数,或希望有汇总的网站可以找到相关包的具体说明.搜索R包的途径有很多,例如分别通过RCRAN mirror ...

  • 5个画热图的R包,你都知道吗?

    2017-03-21 17:45 之前我们分享过R语言绘制热图(),用的是pheatmap包.其实画热图还可以用heatmap函数.ggplot2包.gplot包.lattice包来画,惊呆了吧~~ ...

  • 如何获取R自带数据集与R包数据集说明文档?

    学习R的时候,我们都会用到R到自带数据集,或者第三方R包内含的数据集,比如iris鸢尾花数据. 有数据集,比如上面这个iris数据,但是我们不了解该数据集具体背景的话,就难以理解它的分析目的,统计分析 ...

  • R包animalcules-一键式交互探索微生物组数据

    写在前面 这个包最优雅的地方在于交互式,所以学习的主要目的也就是交互式的实践.交互 图可以很好的探索数据,但一般不支持输出矢量图,不方便下游编辑和修改和用于发表.如果你找到了导出矢量图方法,请留言. ...