对miRNA进行go和kegg等功能数据库数据库注释

如果大家对go和kegg等功能数据库注释有一定了解,就应该是知道kegg其实里面就记录各个物种不到一半的蛋白编码基因功能,比如人类, 约2万个蛋白编码基因,也就七千多个是有kegg功能注释的。其它物种就更是惨不忍睹,没有那么多科研经费投入进去,实际上对它们的基因功能就无从得知!
不过,哪怕是对人类来说,kegg注释的也仅仅是蛋白编码基因,但是如果你了解人类gtf文件,就应该是知道,里面有6万左右的基因,如果我们的差异分析,定位到了 lncRNA,假基因,miRNA的基因,其实就不能直接进行功能数据库注释。
我们以miRNA为例,每个miRNA都是可以靶向调控数百甚至数千个蛋白编码基因,所以我们如果要对miRNA进行go和kegg等功能数据库数据库注释,就需要以靶向调控为桥梁。
前面我们介绍了两次关于miRNA的靶向基因的查询工具,分别是:
而且我们也多次讲解了go和kegg等功能数据库数据库注释,见:
所以,理论上你能够查询到miRNA的靶向基因,就可以用靶基因作为桥梁去进行数据库注释啦!
当然,如果你不想看这个中间过程,也可以自己写一个函数,或者使用造好的轮子,比如:
rm(list = ls())
library(miRNAtap)
library(topGO)
library(org.Hs.eg.db)

mir = 'miR-10b'
predictions = getPredictedTargets(mir, species = 'hsa',
                                  method = 'geom', min_src = 2)

rankedGenes = predictions[,'rank_product']
selection = function(x) TRUE 
# we do not want to impose a cut off, instead we are using rank information
allGO2genes = annFUN.org(whichOnto='BP', feasibleGenes = NULL,
                         mapping="org.Hs.eg.db", ID = "entrez")
GOdata =  new('topGOdata', ontology = 'BP', allGenes = rankedGenes, 
              annot = annFUN.GO2genes, GO2genes = allGO2genes, 
              geneSel = selection, nodeSize=10)
GOdata

results.ks = runTest(GOdata, algorithm = "classic", statistic = "ks")
results.ks

allRes = GenTable(GOdata, KS = results.ks, orderBy = "KS", topNodes = 20)
allRes[,c('GO.ID','Term','KS')]

这个topGO也是一个老牌的R包,虽然说因为Y书的原因,我们一直在强推clusterProfiler,但是并不意味着clusterProfiler 唯一的解决方案哈!
其它功能数据库同样的注释流程哈!

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:
推荐阅读

(0)

相关推荐

  • SomamiR:肿瘤细胞miRNA突变位点专用数据库

    SomamiR是microRNA(miRNA)及其靶点中癌症体细胞突变的数据库,集成了多种类型的数据,用于研究体细胞和种系突变对癌症中miRNA功能的影响.数据库还提供了存在miRNA靶序列体细胞突变 ...

  • miRNA‑mRNA调控网络发文思路

    参考文章题目:Identification of biomarkers and construction of a microRNA‑mRNA regulatory network for clear ...

  • GO分析和KEGG分析都是啥?

    前几天和大家介绍了一下GEO数据库以及使用GEO2R进行差异表达分析GEO2R差异表达分析软件.几乎现在的套路性文章在做完差异表达分析后,都会去做GO和KEGG富集分析.那么GO和KEGG都是什么?富 ...

  • 最强攻略2: 史上最全非编码RNA数据库汇总解读

    第一单元 lncRNA数据库 长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码RNA.研究表明, lncRNA 在剂量补偿效应.表观遗传调 ...

  • 综述 | DescribePROT:氨基酸水平蛋白质结构和功能预测数据库

    编译:李可爱,编辑:Emma.江舜尧. 原创微文,欢迎转发转载. 导读 随着基因序列数据量的迅速增长,科学家面临着巨大的任务.目前,2020.04版本的UniProt数据库中,从功能和结构上表征新型蛋 ...

  • 多功能机器的注释译文研究

    机电商品的理论研究有时会涉及多功能机器定义的讨论(例如,多功能机器与组合机器的异同),此时除了第十六类注释三所称"具有两种及两种以上互补或交替功能的机器",较常引用的还有总注释第六 ...

  • 综合性基因功能预测数据库

    我们在进行研究一个基因之前都要了解这个基因主要是功能是什么,或者它可能的功能是什么.如果要了解一个基因目前的功能的话.可以通过genecards来查找的. 如果想要挖掘这个基因额外的功能的话,那就需要 ...

  • 低通量实验验证的功能lncRNA数据库介绍

    说起lncRNA,想必大家不会陌生,作为不同的生物学过程中的关键角色,发挥着重要功能,并与许多人类疾病相关,如癌症,心血管疾病和神经退行性疾病等.但是,并非所有表达的lncRNA都具有功能.所以今天小 ...

  • 航母级基因功能预测数据库

    在基于高通量测序的进行基因功能预测的是时候,我们经常需要寻找符合我们研究疾病的数据集.拿肿瘤而言,最常见的的还是 TCGA 数据库.但是一个数据集进行基因功能预测的时候,有可能在后续的实验的时候就会产 ...

  • 基于实验的lncRNA功能汇总数据库

    目前大部分lncRNA相关的数据库都是依赖高通量测序,而今天我们介绍的这个数据库以实验验证为基础,收集2016年5月1日前的所有lncRNA实验数据,并整合了lncRNAdb, LncRANDisea ...

  • 融合基因功能预测数据库

    昨天我们介绍的融合基因查询的数据库,可以查询发生基因融合的基因.由于发生了基因融合,所以就相当于形成了新的基因,对于这种基因的功能是什么,昨天的数据库没有介绍.今天我们就来介绍用来查询融合基因功能的数 ...

  • 泛癌中甲基化功能影响数据库

    写在前面 目前我们用到的很多甲基化的数据库都是基于甲基化芯片来进行检索的.所有的甲基化芯片和表达谱芯片一样都是基于设计序列来进行检测的,类似的我们检测的原始数据是cg开头的ID编号,这个编号代表检测其 ...

  • 技术贴 | KEGG功能注释和KEGG功能富集的在线预测

    本文由沐子星根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 KEGG是1995年由日本京都大学生物信息学中心的Kanehisa实验室建立的,是一个整合了基因组.化学和系统功能信 ...