厉害了,我的山大!自主构建了用于分析宏基因组中氮循环基因的数据库--NCycDB!
山东大学海洋科学与技术研究所于2018年8月28日在《Bioinformatics》发表了题目为《NCycDB: a curated integrative database for fast and ac- curate metagenomic profiling of nitrogen cycling genes》的文章。该研究构建了一个数据库(NCycDB),用于从宏基因组测序数据中快速准确地分析N循环(亚)基因家族,并发现N循环基因家族的结构和组成与纬度和温度的关系最为密切。
研究摘要
氮(N)循环是地球生态系统中重要的生物地球化学途径的集合,并且是生态学和环境研究中的焦点。目前,宏基因组测序已被广泛应用于探索N循环过程的基因家族。然而,在应用公开可用的直系同源数据库来分析宏基因组样本中的N循环基因家族时存在一些问题,例如低效的数据库搜索,非特异性的直系同源组和N循环(亚)基因家族的低覆盖率。
为了解决这些问题,本研究构建了一个手动统筹数据库(NCycDB),用于从宏基因组测序数据中快速准确地分析N循环(亚)基因家族。NCycDB总共含有68个(亚)基因家族,并包括8个N循环过程,其中在95%和100%的相似度情况下分别有84,759和219,146个代表性序列。此外,还鉴定了1,958个直系同源组,并在数据库中包含相应的序列,以避免由于“小数据库”问题导致的假阳性分配。
本研究应用NCycDB分析来自全球海洋采样探险队的52个宏基因组中的N循环(亚)基因家族。结果进一步表明,N循环基因家族的结构和组成与纬度和温度的关系最为密切。NCycDB有望通过各种环境中的宏基因组测序方法促进N循环研究。本研究中开发的框架可以作为在各种过程和途径中构建类似的功能基因数据库的良好参考。
NCycDB数据库文件获得网址:https://github.com/qichao1984/NCyc.
文中主要图片说明
图1. NCycDB构建的主要步骤流程图。首先(A),通过使用关键词从KEGG及UniProt数据库检索蛋白质序列,为选定的(亚)基因家族构建核心数据库。未能以30%的一致性聚类的序列被删除。第二步(B),通过整合来自COG,eggNOG,KEGG和SEED等数据库的目标基因构建了一个完整的数据库。还鉴定了不属于这些N循环(亚)基因家族的同源序列,并将其作为阴性对照存在在数据库中。第三步(C),开发了PERL脚本,以使用选定的数据库搜索工具生成宏基因组的功能配置文件。
图2. NCycDB中N循环(亚)基因家族与其他直系统数据库的比较。(A)在不同数据库中检测到的N循环(亚)基因家族的数量。(B)在公共数据库中相应的直系同源组中属于所选N循环(亚)基因家族的序列的百分比。灰色表示相应的直系数据库中没有(亚)基因家族。
图3. NCycDB在海洋环境中分析N循环(亚)基因家族的应用。(A)52个海洋样本中N循环(亚)基因家族的不同功能特征。不同的颜色指的是不同的基因家族。由于基因家族太多,未显示颜色图例(B)N循环(亚)基因家族与纬度之间的CCA分析。(C)N循环(亚)基因家族与温度之间的CCA分析。
原文下载
长按或扫描,免费下载原文
原文免费下载网址:http://sci-hub.tw/10.1093/bioinformatics/bty741