科研 | Molecular Ecology Resources:SCycDB--硫循环途径宏基因组分析的功能基因数据库

编译:独世,编辑:木木夕、江舜尧。

原创微文,欢迎转发转载。

导读

微生物在硫的生物地球化学循环中起着重要作用,硫是地球生物圈中的重要元素。鸟枪法宏基因组测序为我们进一步了解参与硫循环的微生物群落开辟了一条新途径。然而,关于硫循环微生物群落的精准宏基因组学分析在技术上仍然具有挑战性,这主要是由于公共同源数据库中硫循环基因家族的覆盖率低和定义不准确。在这里,我们开发了一个手动管理的硫循环数据库(SCycDB),以描述鸟枪宏基因组的硫循环功能基因和分类组。数据库SCycDB包含207个基因家族和585,055个代表序列,它们与52个细菌门和2684个细菌/古细菌属相关,并且还包括了20,761个同源正交组,以减少假阳性序列的分配。SCycDB可应用于四个栖息地(淡水,温泉,海洋沉积物和土壤)的硫循环微生物群落的功能和分类学分析。海洋沉积物中存在丰富的涉及硫还原的基因家族和微生物,而土壤中含有丰富的硫氧化和二甲基磺酸丙二酸酯转化的基因家族和微生物。SCycDB有望成为快速准确地对环境中硫循环微生物群落进行宏基因组分析的实用工具。

论文ID

名:SCycDB: A curated functional gene database for metagenomic profiling ofsulphur cycling pathways

译名SCycDB:硫循环途径宏基因组分析的功能基因数据库

期刊:Molecular Ecology Resources

IF:6.286

发表时间:2020.12

通讯作者:贺志理

通讯作者单位:南方海洋科学与工程广东省实验室

实验方法

在先前研究的基础上改进了流水线,以构建SCycDB(图1)。首先,根据目前硫循环过程的知识和文献手动构建核心数据库,并且参考了KEGG中的硫代谢途径。通过创建和完善参与硫循环的每个基因家族的关键字,使得用户可以从Swiss-Prot数据库中下载每个基因家族的种子序列(UniprotConsortium,2017)。对于Swiss-Prot中没有参考序列的基因家族,从TrEMBL(Uniprot Consortium,2017)下载了人工检查的高质量序列。为了确保SCycDB的准确性,基于每个基因家族的注释和与其他序列的相似性,特别是对于Swiss-Prot中没有参考序列的种子序列,对它们进行手动检查。将从TrEMBL下载的具有与种子序列≥30%一致性的相同关键字的序列与种子序列合并,形成了核心数据库(图1a)。其次,在公共数据库中鉴定出属于硫循环基因家族的序列及其直系同源序列,并与核心数据库合并,形成完整的数据库(图1b)。在核心数据库中吸收并进行了搜索包括arCOG,COG,eggNOG和KEGG在内的公开的同源数据库。确定了参与硫循环的基因家族及其同源物,并提取相应的序列并将其包括在SCycDB中。基于此,SCycDB数据库的综合性有望得到改善,而可能导致误报分配增加的“小型数据库”问题有望减少或消除。此外,还确定、提取和合并了NCBI古细菌和细菌RefSeq数据库中的相应序列(硫循环基因家族和同源物)。从NCBI RefSeq中的相应序列总结了SCycDB中硫循环基因和途径的分类学覆盖范围。通过CD-HIT以100%一致性将硫循环基因家族和同源基因家族的序列聚类。检查所有代表性序列和相关信息,并将其用于构建SCycDB。最后,我们将PERL脚本与三个候选数据库搜索工具(usearch,blast和diamond)结合在一起,用于鸟枪法基因组的功能和分类分析(图1c)。通过搜索原始读数,可以生成功能和分类概况,预测针对SCycDB的基因或蛋白质序列。PERL脚本中还提供了随机子采样功能,以消除不同样本之间的测序深度差异。本数据库在基因家族水平上提供了硫循环微生物群落的功能概况,同时在各种分类学水平上提供了硫循环微生物群落的分类学概况。

图1 SCycDB构建框架。(a)核心数据库的构建:使用手动优化的关键字从Swiss-Prot数据库中检索种子序列,并从TrEMBL数据库中检索到的序列与种子序列合并,其一致性阈值为30%,从而生成了核心数据库。(b)完整的数据库构建:从公共同源数据库和NCBI RefSeq数据库检索硫循环基因家族和同源基因家族,并提取代表性序列并将其包括在完整数据库中。(c)宏基因组分析:提供了PERL脚本,以使用选定的搜索工具为鸟枪法基因组生成功能和分类概况。

结果

 SCycDB中的基因家族和途径总结
构建的SCycDB数据库包含585,055个序列,涉及207个基因家族,涉及8个关键的硫循环途径,包括同化性硫酸盐还原,异化硫还原和氧化,硫还原,SOX系统,硫氧化,硫歧化,有机硫转化以及无机硫和有机硫转化之间的联系;硫复合转运蛋白也被包含在“其他”类别。
1.1 同化性硫酸盐还原
该途径包括11个基因家族,具有117,455个代表性序列以及4580个同源类群,基因家族包括cysDcysN和sat参与硫酸盐活化为腺苷5'-磷酸磷酸酯(APS)的过程,并且cysC将APS转化为5'-磷酸磷酸腺苷(PAPS)。基因家族cysNC编码负责硫酸盐转化为PAPS的生物功能酶CysN/CysC,cysH用于PAPS还原为亚硫酸盐,以及cysIcysJsir用于将亚硫酸盐还原为硫化物。
1.2 异化硫还原和氧化
该途径涵盖了22个基因家族,具有20,354个序列和775个同源类群,用于异化硫还原和氧化(表1;图S1B)。该基因家族sat参与硫酸盐和APS之间的转化,以及aprABqmoABC参与APS和亚硫酸盐之间的转化。基因家族dsr参与异化硫还原和氧化,其中某些基因家族成员(例如dsrABdsrCdsrDdsrEFHdsrLdsrMKJOP)负责亚硫酸盐和硫化物之间的转化。
1.3 SOX系统
SOX系统涉及硫代硫酸盐氧化为硫酸盐的七个基因家族,包括soxAsoxBsoxCsoxDsoxXsoxYsoxZ。SOX系统基因编码SoxAX、SoxYZ、SoxB和SoxCD蛋白。SCycDB中总共包括14,998个序列和851个同源类群。
1.4 硫还原
硫还原途径包含26个编码亚硫酸盐还原酶,四硫酸盐还原酶,硫原酶和多硫化物还原酶的基因家族,共有11,546个代表性序列和496个同源类群。其中,asrABCfsrmccA负责将亚硫酸盐还原为硫化物,otrttrABC负责将四硫酸盐还原为硫代硫酸盐,sreABCpsrABC分别用于单质硫还原和多硫化物还原,以及hydABDG,shyABCD和sudAB分别用于还原两种硫多硫化物为硫化物。
1.5 硫氧化
共有14个基因家族参与硫氧化途径,共有15372个代表性序列和231个同源类群。fccAB和sqr基因家族参与硫化物氧化,doxADglpEsseAtsdAB参与硫代硫酸盐氧化,soeABCsorAB参与亚硫盐氧化。
1.6 硫歧化
该途径包括phsABCtetHsor等基因家族,共有1394个序列和64个同源类群。其中,phsABC基因家族编码负责将硫代硫酸盐转化为亚硫酸盐和硫化物的硫代硫酸盐还原酶,tetH用于四硫代盐到单质硫,硫代硫酸盐和硫酸盐的歧化反应,以及set用于将单质硫转化为亚硫酸盐和硫化物。
1.7 有机硫转化
有57个基因家族参与有机硫转化,共有147,231个序列和4103个同源类群。其中,dsyB基因家族编码甲基转移酶,这是DMSP生物合成的关键酶。对于DMSP降解,涉及两个途径,包括用dddDKLPQWY编码DMSP裂解酶将DMSP转化为DMS和丙烯酸酯的裂解途径,以及用dmdABCD将DMSP转化为DMSP甲基巯基丙酸酯(MMPA)的脱甲基途径,进一步生成甲硫醇(MeSH)和乙醛。acuIacuKNprpE基因家族参与丙烯酸酯的利用和脱毒,而dmsABCddhABCtmm基因家族则参与DMS和亚砜(DMSO)之间的转化。其他各种各样的有机硫化合物,如硫脂、磺酸盐和硫酸酯,也参与有机硫的代谢。sqdBsqdDX编码的两种酶与硫脂基磺基喹喔糖基二酰基甘油酯(SQDG)的生物合成有关,而yihQ编码的磺基喹硫糖苷酶随后将SQDG转化为磺基奎诺糖(SQ)。tauXYtoatpaiseJ基因家族负责将C2磺酸盐(牛磺酸、羟乙磺酸盐)转化为磺基乙醛,而xscpta负责将磺基乙醛转化为乙酰辅酶A。hpsOPNslcCD基因家族与C3磺酸盐DHPS的转化以及与硫酸酯胆碱-邻硫酸盐的利用有关的betABC的转化。
1.8 无机硫和有机硫转化之间的联系
有35个基因家族负责将无机和有机硫转化联系起来,总共144,620个序列和4011个同源类群。hdrABCDE基因家族编码一个异二硫化物还原酶样系统,该系统将DMS氧化与硫代硫酸盐还原联系在一起。包括cuyAmsmABssuDEsuyABtbuBCtmoCFtouCFxsc在内的基因家族将cysEKMOmccBmetABCXYZmtoX等其他基因家族与有机硫化合物(例如链烷磺酸盐、l-半胱氨酸盐、甲磺酸盐、巯基乳酸、磺基乙醛和牛磺酸)和亚硫酸盐之间的转化联系在一起,从而将有机硫化合物(例如L-半胱氨酸、L-高半胱氨酸、L-丝氨酸和MeSH和硫化物之间的转化联系在一起。
1.9 其他
SCycDB还包括31个编码硫酸盐、亚硫酸盐、硫代硫酸盐和有机硫化合物各种转运蛋白的基因家族,共有112,085个序列和5650个同源类群。
SCycDB和其他同源数据库比较检测到的基因家族
为了评估SCycDB中硫循环基因家族的覆盖范围,将已经成熟的SCycDB数据库与其他公开的同源数据库(包括arCOG,COG,eggNOG和KEGG)进行了比较。研究指出了影响宏基因组学中功能分配准确性的几个关键问题。首先,SCycDB中有207个基因家族,而arCOG、COG、eggNOG和KEGG同源数据库分别包含62、130、138和152个基因家族。其次,SCycDB中包含了几个关键的硫循环基因家族,但在这四个公共同源数据库中却没有,例如异化硫还原和氧化(dsrMKJOP)、硫还原(mccAotrrdlA)、硫氧化(sorAB)、硫歧化(tetH)、有机硫转化(dddACdddKQWYdsyB)等(图2)。再者,在四个公共同源数据库中,由SCycDB定义的许多不同的基因家族被合并为一个直系同源的群体。相反,可以在多个直系同源组中正确找到SCycDB中具有不同分类的单个基因家族。例如,用于不同硫还原途径的dsrAB、asrC和fsr被合并到COG和eggNOG中的一个同源组中。同样,phsApsrA在COG、eggNOG和KEGG中没有明确区分,而在SCycDB中存在基于系统发育的区分(图S5)。因此,专门设计用于靶向参与硫代谢的基因家族的SCycDB在覆盖率、代表性和准确性方面优于现有的同源数据库。
图2 SCycDB中硫循环基因家族与其他公共同源数据库的比较。热图中的不同颜色表示相应的同源数据库中所选硫循环基因家族的覆盖范围。SCycDB被用作比较的参考。灰色表示在公共同源数据库中缺少该基因家族。
3  PSychDB中硫循环基因的分类组成和途径
为了了解SCycDB中硫循环基因和途径的分类学组成,我们将靶向硫循环基因和途径的序列映射到了NCBI RefSeq的相关参考基因组中。总的来说,SCycDB涵盖47个细菌门,82个细菌纲,197个细菌目,461个细菌科和2562个细菌属,以及5个古菌门、12个古菌纲,22个古菌目、37个古菌科和122个古菌属。对于细菌来说,主要的菌群有Proteobacteria(此细菌门覆盖了91.3%的基因)、Firmicutes(67.6%)、Actinobacteria(62.8%)和Bacteroidetes(44.0%),SCycDB的主要属为假单胞菌(Pseudomonas,此细菌属覆盖51.7%的基因)、Escherichia(45.9%)、芽孢杆菌(45.4%)和弧菌(36.7%)。进一步分析表明,有机硫转化具有最高的微生物覆盖率,包含42个细菌门和2289个细菌属,特别是同化性硫酸盐还原是最大的覆盖群体之一,具有40个细菌门和2059个细菌属,而40个细菌门和2204个细菌属涉及到无机和有机硫转化之间的联系。对于古菌,Euryarchaeota、Crenarchaeota、Thaumarchaeota、Candidatus Bathyarchaeota和Candidatus Korarchaeota是SCycDB中的优势古菌门。在属水平上,有机硫转化的多样性最高,涉及了84个古菌属,其次是同化性硫酸盐还原(81个古菌属),以及无机和有机硫转化之间的联系(76个古菌属)。这些结果表明,SCycDB覆盖了参与硫循环的多种微生物,为搜索和注释环境中硫循环基因、途径和相关的关键微生物提供了实用的平台。
SCycDB在环境样品的功能和分类分析中的应用
我们应用了SCycDB和其他四个同源数据库(arCOG、COG、eggNOG和KEGG),从淡水、温泉、海洋沉积物和土壤(图3和图4)的四个生境描述了硫循环微生物群落。通过搜索SCycDB而检测到的硫循环基因家族的数量在四个生境中介于174至188之间,这显著高于其他四个数据库(arCOG中的55-58、COG中的125-128、eggNOG中为129–134、KEGG中为120–135)。值得注意的是,SCycDB(418–2264 s)的运行时间比eggNOG(3625–17,749 s)和KEGG(2243–11,161 s)短得多。
硫循环微生物群落的SCycDB结果表明,总体功能或分类组成在四种生境中显著不同(p<0.05)。微生物群落的功能分析表明,硫循环功能基因和途径在不同的生境中存在显著的丰度差异(图3)。例如,土壤栖息地显示出与SOX系统(soxAXsoxCDsoxYZ)和硫氧化(sorABtsdAB)以及DMSP生物合成和降解(dsyBdddDKLPQWYdmdABCDacuNK)相关的基因家族数量最高。海洋沉积物中具有大量硫还原基因家族(asrABCshyABCDttrABC)和DMS转化基因(ddhABCdmsABC)(图3)。硫循环微生物群落的分类学分析表明,Proteobacteria是四个生境中硫循环微生物群落的主导细菌门,这与SCycDB中Proteobacteria显示出一致的丰富度。在属水平上,海洋沉积物中的与异化硫还原,硫还原和歧化相关的Desulfallas、Desulfobacter、Desulfococcus、Desulfomonile、DesulfotomaculumSyntrophobacter的丰度显著高于其他三个生境(图4)。相反,土壤生境存在大量的Halomonas、Pseudomonas、Rhodobacter、Roseobacter、Roseovarius、Ruegeria、SagittulaSulfitobacter,这些属与DMSP的产生和降解有关(图4)。以上结果表明,SCycDB可以快速、全面、准确地对各种环境中硫循环微生物群落进行功能和分类学分析,是促进鸟枪法基因组测序数据分析的强大工具。
图3 SCycDB注释的四个栖息地中硫循环基因家族的相对丰度。(a)硫酸盐的同化性还原和硫的异化还原和氧化;(b)SOX系统、硫还原、氧化和歧化;(c)有机硫转化以及无机硫和有机硫转化之间的联系。这些微生物群落的功能谱分析确定了这四个生境中的154–193个基因家族和112,417–213,847个序列,每个样本的随机子采样为4,710,299个序列。数据表示为平均值±SE(标准误差,n = 6)。不同的字母(“ a”,“ b”或“ c”)表示四个栖息地中每个基因家族的统计学差异(p <0.05)。FW,淡水;HS,温泉;MS,海洋沉积物;S,土壤。
图4 SCycDB在属水平上注释的硫循环微生物群落的相对丰度。硫循环微生物群落的分类学分析在四个生境中确定了32–43个门和692–1340属,每个样本随机抽样4,710,299个序列。数据表示为平均值±SE(标准误差,n = 6)。不同的字母(“ a”,“ b”或“ c”)表示四个栖息地中每个基因家族的统计学差异(p <0.05)。FW,淡水;HS,温泉;MS,海洋沉积物;S,土壤。

讨论

手动管理的数据库对于提高宏基因组数据的生物信息学分析过程中的可靠性和可重复性至关重要。自动生成的同源数据库,包括arCOG、COG、eggNOG和KEGG,涵盖了涉及微生物硫循环的62–152个基因家族。相比之下,SCycDB更为全面,涵盖了585,055个代表性序列的207个基因家族。基于公开数据库和硫循环的最新知识,可手动检索SCycDB中包含的基因家族。例如,SCycDB涵盖了现有数据库中未包含的基因家族,例如与DMSP合成(dsyB),丙烯酸酯利用和脱毒(acuNKdddAC)和DMSP裂解(dddKQTWY)有关的基因家族,使研究人员能够研究这些新发现的基因家族和代谢途径。这些基因家族在其他可公开获得的数据库中没有明确定义的直系同源基因组,但它们在调节海洋硫循环和介导气候活性气体DMS中起着重要作用。此外,SCycDB不仅包括众所周知的包括dsrAB,dsrC和dsrEFH的基因家族,还包括其他鲜为人知的用于异化硫还原和氧化的dsr基因家族(例如,dsrMKJOPdsrLdsrNdsrT)。此外,为了方便功能注释和分类分配,这需要具有分类信息的更准确序列,NCBI RefSeq数据库已集成到SCycDB中,以增加功能基因序列及其相关分类信息的覆盖范围。因此,SCycDB提供了非常理想的能力来探索微生物生态学中“谁在哪里”和“他们在做什么”的问题。

准确度在宏基因组测序数据分析中至关重要,这在很大程度上取决于参考数据库。SCycDB确保其注释准确性表现在三个方面。首先,基因家族和注释具有一对一的对应关系。当自动生成的同源数据库基于物种感知聚类算法识别直系同源群体时,它们无法清楚地区分不同的同源基因。例如,分别编码多硫化物还原酶和硫代硫酸盐还原酶亚基的基因家族psrAphsA是高度同源的,因此在自动生成的同源数据库中,它们总是被错误地注释为单个同源组。在ScycDB中,我们仔细研究了此问题,并将其手动分为两个同源组。其次,SCycDB减少了可能在自动生成的同源数据库中发生的潜在错误注释。例如,cysC基因序列通常与sat序列分组,从而可能产生错误注释。常见于cysPvs. sbpmetBvs. mccBsreAvs. soeA。尤其是观察到序列可以分配给不止一个的直系同源基团。因此,我们手动检查了这些序列,并将其仔细分配给正确的基因组,以减少SCycDB中可能的错误注释。再者,最近开发了一些用于分析特定基因家族的数据库,例如ARDB(针对抗生素抗性基因)和NCycDB(针对氮循环基因)。由于这些专用数据库的规模较小,因此误报可能是一个问题。为了解决这种“小型数据库”的问题,SCycDB特意纳入了从多个可公开获得的同源数据库中识别出的硫循环相关的同源类群,使得注释的准确性大大提高。

与其他同源数据库不同,SCycDB专门针对硫循环微生物群落,可快速注释功能基因、途径和分类法。随着鸟枪法宏基因组测序数据呈指数增长,对宏基因组学研究而言,宏基因组数据集的快速处理至关重要。对分类学分类器MetaPhyler的研究表明,它比其他工具(PhymmBL。MEGAN。WebCarma)要快得多,因为它的参考数据库比常规参考数据库小。然而,特定的数据库NCycDB提供了一个快速的分析平台,可识别氮循环基因家族。在我们的研究中,我们使用了370 G宏基因组数据集并在20个CPU线程上运行,结果显示SCycDB、eggNOG和KEGG的运行时间分别约为8、66和42小时。因此,SCycDB是一个用于在宏基因组学研究中注释硫循环微生物群落更快速的数据库。

功能和分类学概况是鸟枪法基因组测序数据分析中的重要目标,以了解来自不同环境的微生物群落。准确的功能分析需要针对特定代谢途径的全面序列数据库,而这通常是不可用的。以硫代谢为例,以前的一些宏基因组学研究仅关注无机硫循环,特别是异化硫酸盐的还原,这可能是由于参考数据库中缺少有机硫循环基因家族。在这项研究中,我们将有机硫循环包括在SCycDB中,并用于分析来自四种类型环境的硫循环微生物群落的功能和分类学概况,从而提供了自然生态系统中微生物群落的全貌。我们的结果显示,自然环境中尤其是有机硫转化微生物群落的硫循环基因家族(154–193个基因家族)和微生物(32–43个门和692–1340属)具有高度多样性。此外,我们发现不同环境中硫循环微生物群落的功能和分类学组成及结构存在显著差异。例如,研究发现海洋沉积物中硫还原基因家族和微生物的丰度较高,这可能与在海洋沉积物中以硫化合物作为电子受体的厌氧呼吸的重要性有关。在所有四个环境中都检测到涉及DMSP和DMS转化的基因家族和微生物,从而支持DMSP和DMS代谢的普遍分布。实际上,DMSP在海洋环境中占固定碳的10%,而DMS在海洋与大气之间的硫交换中起着重要作用。相应地,海洋沉积物中DMS转化基因家族的丰度高于其他三种环境。然而,我们在土壤生境中发现了大量的DMSP生物合成和降解基因家族以及相关的微生物,这表明DMSP转化也可能是土壤中的重要过程。因此,这些结果表明,环境中微生物硫代谢的多样性和重要性还有待探索,而本研究开发的SCycDB将极大地促进这一发展。

结论

硫循环是重要的生物地球化学过程,主要受微生物驱动,影响了碳、氮循环以及全球变化。表征参与硫循环的微生物过程的功能和分类法对于更好地了解硫循环微生物种群的多样性以及对环境的特定影响至关重要。在这里,我们开发了SCycDB,用于快速准确地对硫循环微生物群落进行功能和分类学分析。SCycDB是一个手动管理的综合数据库,可利用鸟枪法基因组测序数据对硫循环微生物群落进行快速、准确的功能和分类学分析。通过整合多个公开可用的数据库,当前的SCycDB包含207个基因家族和585,055个代表性序列以及20,761个同源类群,从而来解决“小型数据库”的问题。目前,SCycDB已应用于各种环境中的硫循环微生物群落概况,证明了其在探索硫循环过程和环境中相关微生物群落方面的实用性。


你可能还喜欢

  1. 2020年度回顾 | 技术贴合辑

  2. 2020年度回顾 | 微生态人体微生物类微文大合辑

  3. 2020年微生态最值得看的环境类微文回顾

微生太公司视频号上线啦,快来关注一波吧!


(0)

相关推荐