NBT:5万个基因组和1.2万个新种的地球微生物基因组集

地球微生物组的基因组集

A genomic catalog of Earth’s microbiomes

Nature Biotechnology [IF:36.558]

2020-11-09  Resource

DOI: https://doi.org/10.1038/s41587-020-0718-6

PDF:https://www.nature.com/articles/s41587-020-0718-6.pdf

第一作者:Stephen Nayfach1

通讯作者:Emiley A. Eloe-Fadrosh1*

其它作者:Simon Roux, Rekha Seshadri, Daniel Udwary, Neha Varghese, Frederik Schulz, Dongying Wu, David Paez-Espino, I-Min Chen, Marcel Huntemann, Krishna Palaniappan, Joshua Ladau, Supratim Mukherjee, T. B. K. Reddy, Torben Nielsen, Edward Kirton, José P. Faria, Janaka N. Edirisinghe, Christopher S. Henry, Sean P. Jungbluth, Dylan Chivian, Paramvir Dehal, Elisha M. Wood-Charlson, Adam P. Arkin, Susannah G. Tringe, Axel Visel, IMG/M Data Consortium, Tanja Woyke, Nigel J. Mouncey, Natalia N. Ivanova, Nikos C. Kyrpides

作者单位:

1 DOE联合基因组研究所,美国加利福尼亚州伯克利(DOE Joint Genome Institute, Berkeley, CA, USA)

本文参加单位达185家,作者和单位信息长达3页,详见原文末附录。

热心肠日报

https://www.mr-gut.cn/papers/read/1059951182

Nature子刊:地球微生物组的基因组目录

  1. 不同生境的10,450个全球分布的宏基因组进行组装和分箱,回收了超过52,000个由宏基因组组装的基因组(MAG),以捕获地球生物群系中细菌和古细菌基因组多样性的广度;

  2. 地球微生物基因组(GEM)目录大大扩展了细菌和古细菌的已知系统发育多样性,增加了宏基因组测序读长的使用率,具有丰富的生物合成潜力,并改善了未培养病毒的宿主分配;

  3. GEM集将成为未来代谢和以基因组为中心的数据挖掘和实验验证的宝贵资源。

主编推荐语:
鸟枪基因组的细菌和古细菌基因组的重建使人们对生态学以及与环境和宿主相关的微生物群落的进化有了深入的了解。本文中,作者将这种方法应用于从覆盖整个地球各大洲和海洋的不同栖息地收集的10,000多个宏基因组。该综合目录包括52,515个由宏基因组组装的基因组,它们代表跨越135个门的12,556个新的候选物种水平的操作分类单位。该目录将已知细菌和古细菌的系统发育多样性扩展了44%,可广泛用于简化的比较分析,交互式探索,代谢建模和批量下载。作者演示了这一集合的效用,用于了解次级代谢物的生物合成潜力和解决成千上万的新宿主与未被培养的病毒的联系。该资源强调了以基因组为中心的方法在揭示影响生态系统过程的未培养微生物的基因组特性方面的价值。

摘要

通过鸟枪法重构细菌和古菌的基因组使人们对生态学以及与环境和宿主相关的微生物群落的进化有了深入的了解。在这里,我们将这种方法应用于从覆盖整个地球各大洲和海洋的不同栖息地收集的10,000多个宏基因组样本,其中包括来自人和动物宿主,工程环境以及自然和农业土壤的宏基因组样本,以获取现有的微生物的代谢和功能潜力。该整合基因组集包括52,515个由宏基因组组装的基因组,它们包括135个门的12,556个新的候选种水平的OTU。该基因组集将已知细菌和古细菌的系统发育多样性扩展了44%,可广泛用于简化比较分析,交互式探索,代谢建模和批量下载。我们展示了此基因组集的实用性,用于了解次级代谢物的生物合成潜力和解决成千上万的新宿主与未经培养的病毒的联系。该资源强调了以基因组为中心的方法在揭示影响生态系统过程的未培养微生物的基因组特性方面的价值。

背景介绍

迄今为止,许多各种各样的微生物尚未被培养,并且仅通过不依赖培养的分子方法仍可得到。基因组分辨(genome-resolved)的宏基因组学是一种能够从微生物种群中重建混合基因组的方法,它首先应用于低复杂性的酸性矿山排水微生物群落。随着计算方法和测序技术的进步,这种方法现在已经在更大范围内得到了应用。以及包括许多其他环境,例如全球海洋、牛瘤胃、人类微生物组、深层地下和含水层。这些研究引发了对未培养细菌和古菌的进化关系和代谢特性的深刻见解。

除了扩展和填补微生物的生命之树外,全面的未培养细菌和古细菌基因组集还将为大规模的比较基因组学,挖掘感兴趣的基因和功能(例如CRISPR–Cas9变体),构建基因组规模的代谢模型,为实现系统生物学方法提供机会。此外,最近将未培养细菌和古细菌的基因组重建对真核生物的进化轨迹和祖先微生物的性状产生了独特见解。

在这里,我们应用了大规模的基因组分辨率的宏基因组学,重新获得了52,515个中等质量和高质量的宏基因组组装基因组(metagenome-assembled genomes,MAG),组成地球微生物组基因组集(Genomes from Earth’s Microbiomes,GEM)。GEM集是根据从各种微生物栖息地和地理位置取10,450个宏基因组样品构建的(图1)。这些基因组代表了12,556个新候选种水平的操作分类单位(operational taxonomic units,OTU),这意味着可得到更广泛的未经培养的细菌和古细菌的系统发育和功能多样性的资源。为了证明这种资源的价值,我们使用GEM集在地球各个生物群落中进行了宏基因组功能解析(metagenomic read recruitment),确定了新的生物合成能力,进行了代谢建模并预测了宿主与病毒的联系。

结果

从环境多样的宏基因组中重新获得了超过52,000个宏基因组组装基因组

Over 52,000 metagenome-assembled genomes recovered from environmentally diverse metagenomes.

我们对10,450个全球分布的宏基因组进行了宏基因组样品进行组装和分箱,这些样品来自海洋和其他水生环境(3,345)、人和动物宿主相关的环境(3,536)以及土壤和其他陆地环境(1,919),获得了52,515个MAG(图1a–c和附表1和2)。除了可公开获得的宏基因组外,这些宏基因组还包括由综合微生物基因组和微生物组(Integrated Microbial Genomes and Microbiomes,IMG/M)数据联盟提供的数千个未发表的数据(方法和附表1和2)。MAG的全球目录包含了来自全球大陆和海洋的样本,其中来自北美,欧洲和太平洋的样本特别有代表性(图1d和附图1)。GEM集可随环境元数据(数据可用性和附表1)一起大量下载,并可通过IMG/M(https://img.jgi.doe.gov)或能源部(Department of Energy,DOE)系统生物学知识库(Kbase; https://kbase.us)门户网站进行交互式浏览,以简化比较分析和代谢建模。

图1 宏基因组组装基因组的环境和地理分布

Fig. 1: Environmental and geographic distribution of metagenome-assembled genomes.

a,在IMG/M从地理和环境多样的宏基因组中获得52,515个MAG。使用最新的组装流程(附表1)对大部分(10,450个中的6,380个;61%)的宏基因组进行了重新组装。这些基因组构成了GEM集。所有MAG≥50%完整性,受污染≤5%,且质量得分(完整性− 5×污染)≥50。b,跨MAG的质量指标分布。在每个箱线图上覆盖大约200个随机选择的数据点,显示最小值,第一四分位数,中位数,第三四分位数和最大值。有关所有MAG的质量统计信息,请参见附表2。c,基于Genomes OnLine Database(GOLD;https://gold.jgi-psf.org)中的环境元数据,MAG分布于整个生物群落和亚生物群落中。与每个亚基生物群落相关的MAG数在图旁边显示。

d,每个生物群落内MAG的地理分布。

来自GEM集的MAG均达到或超过MIMAG标准的中等质量水平(平均完整性= 83%;平均污染度= 1.3%),并包括9,143(17.4%)个基于接近完整的高质量rRNA,tRNA和单拷贝蛋白质编码基因(图1a,b和附表2)。高质量GEM的基因组大小在0.63至11.28 Mb之间,多数小型MAG属于预期减少的基因组谱系,例如纳古菌门(Nanoarchaeota)或支原体目(Mycoplasmatales),大型MAG属于Myxococcota和Planctomycetota。基因组大小和GC含量在寄主相关微生物组中最低(中位数:2.61 Mb;46.9%),而在陆地微生物组中最高(中位数:3.77 Mb;57.1%),这与在土壤环境中的泛基因组扩展一致。MAG的大小与相同物种的分离基因组(isolate genomes)一致,表明单个基因组中的基因含量没有重大遗失(附图2)。一个例外是苜蓿中华根瘤菌(Sinorhizobium medicae),其中来自根瘤的MAG几乎是分离基因组的两倍(MAG是11-12Mb,分离基因组6-7Mb; S. medicae:99%ANI和65%AF)。尽管分箱重叠群的四核苷酸频率组成总体上显示出良好的一致性,但检测到许多SNP,这表明是同一物种的两个菌株的复合物。此外,我们还比较了由Parks为GEM样本子集进行独立的MAG组装,这提升了混合的基因组分箱的可重复性(附表3和补充说明)。

分类学上定义的参考基因组通常用于从宏基因组中推断出微生物的丰度,但无法收集到人类微生物组以外的大多数读长。为了探索GEM集中的MAG是否可以解决此问题,我们将来自3,170个宏基因组的高质量读长与52,515个GEM和NCBI RefSeq的所有分离基因组的可用读长数据进行了比对。结果表明每个样本将平均为30.5%(IQR= 5.9–49.3%)和14.6%(IQR = 0.9–15.8%)的宏基因组读长分别分配给一个或多个GEM或分离的基因组(附图3和附表4)。在所有样品中,GEM引起可比对读长数增加3.6倍,这在某些环境中尤其明显,例如生物反应器或无脊椎动物宿主(附图3)。尽管有些改进,但仍然有近70%的读长未比对到任何MAG或分离基因组。这在土壤群落中尤其明显(例如,55%的样品中大于95%的读长未比对到任何基因组),这些样本高度复杂且组装困难。与此结果一致,k-mer多样性最高的宏基因组往往具有最低的比对率(Spearman’s r = -0.68;P value = 0)。这些群落可能包含密切相关的生物体,这对宏基因组学的组装和分箱是主要难题。低的可比对率也可能反映了病毒、质粒和真核生物微生物的存在,他们在本研究使用的分析流程无法获取。

GEM集扩展了生命之树的基因组多样性

The GEM catalog expands genomic diversity across the tree of life.

为了发现新的种水平多样性,我们基于95%的全基因组ANI对GEM进行了聚类,发现了18,028个物种水平的OTU(图2a,b,附图4和附表5)。尽管原核生物的物种概念存在争议,但该操作定义是常用的并且被认为是黄金标准。根据来自基因组分类数据库(Genome Taxonomy Database,GTDB)的分类注释,我们发现GEM涵盖137个已知门,305个已知纲和787个已知目。绝大多数非单一OTU仅包含来自单一环境或多重紧密相关环境的GEM(例如生物反应器和废水环境;附图5),这表明很少有物种具有较宽的生境范围,然而接近40%的物种在多个采样点发现(图2c)。MAG的积累曲线显示种水平的OTU没有平稳期(附图6),表明在整个生物群落中仍有待发现的其他物种,从比对率的低百分比也能反映出这个结论。

图2 具有> 500,000个参考基因组GEM集下的种水平聚类

Fig. 2: Species-level clustering of the GEM catalog with >500,000 reference genomes.

a,将当前研究的MAGs与IMG/M和NCBI中发现的524,046个可公开获得的参考基因组进行了比较。所有参考基因组均符合与GEM集相同的最低质量标准。基于95%ANI和30%AF,所有MAG和参考基因组被聚集成45,599个种水平OTU。b,基因组之间的OTU重叠。来自当前研究的MAGs首次揭示了12,556个物种基因组

c,GEM集中具有超过1个基因组的OTU,尽管超过三分之一在多个地理位置发现,但绝大多数都局限于单个生物群落和亚生物群落,d,在新发现的12,556种物种中,很大一部分仅由一个基因组代表。

e,f,基于种水平多样性选择的当前数据集与16个最大的先前发表的基因组研究的比较。研究标识符(Study identifiers)来自NCBI BioProject或GOLD。Wu,HMP(2010)和Mukherjee等人的研究包含了发表后产生的其他基因组。使用与GEM数据集相同的质量标准过滤了其他研究的所有MAG(图1a和方法)。与以前发表的任何研究相比,当前研究的基因组物种代表多样性高出三倍。

接下来,我们将18,028个OTU与524,046个参考基因组的广泛数据库进行了比较,其中包括之前研究的> 300,000个MAG,> 200,000个从纯培养物中分离的生物体基因组(包括所有RefSeq)和> 2,000个单扩增基因组(single-amplified genomes,SAG; 图2a)。其中包括在人类微生物组、全球海洋、含水层系统、永久冻土层解冻梯度、牛瘤胃、高盐湖沉积物和热液沉积物中进行的大量MAG研究,以及多项大型分离基因组测序研究,例如细菌和古细菌的基因组百科全书(Genomic Encyclopedia of Bacteria and Archaea,GEBA)和人类微生物组计划(Human Microbiome Project,HMP),尽管当前发表了几项研究,但并没有包括在内。所有参考基因组均遵循与我们应用于GEM数据集相同的质量标准(≥50%的完整性,≤5%的污染和≥50的质量得分)。

值得注意的是,来自GEM集的12,556个OTU(代表23,095个MAG)与95%ANI的参考基因组不同,因此代表了新的候选物种。同时,所有ANI> 95%参比基因组中有70%的被归类到GEM集中,这表明它对现有基因组具有良好的覆盖率。在326个研究中发现了新的OTU,平均每个研究有40个。微生物暗物质(Microbial Dark Matter,MDM)第二阶段研究是GEBA-MDM项目的延伸,它贡献了最新的790种OTU,它们来自80个宏基因组中的1,124个MAG。

为了支持它们的新颖性,在12556个新的OTU中,绝大多数与参考基因组远亲或几乎没有亲缘关系(与参考相比,ANI小于90%或AF小于10%的OTU占93.7%),> 99%的物种未在 GTDB中注释到。但是,来自新OTU的MAG趋向于不太完整(新OTU平均为81.0%相对于旧OTU平均为84.6%),稍高的污染(新OTU平均为1.5%相对于旧OTU平均为1.1%),并且通常以单体(singletons)形式被发现(图2d,附表6和补充说明)。这些观察结果可能由多个因素引起,包括未培养的谱系的基因组减少,16S rRNA基因座的组装问题和稀有生物圈成员的重构。

我们将未收集的参考基因组聚集成了另外的27,571个OTU,从而形成了45,599个种水平OTU的组合数据集(图2a,b)。这表明,尽管GEM集包含较少的基因组,但与以前发表的任何研究相比,它代表的多样性是其3.8倍图2e)。例如,Parks等人对NCBI中序列读长存档(SRA)中可用的所有环境宏基因组进行了大规模的组装和分箱,以前所未有的努力扩展未培养谱系的基因组。根据当前研究中进行的聚类和质量控制,这10,728个MAG代表5,200个OTU,仅占GEM集中OTU的12%(附表7)。

接下来,我们基于30个串联的标记基因构建了45599个OTU的系统发育树图3a,附表8和方法)。对系统发育树分析表明,GEM集是迄今为止发布的最多样化的数据集(图2f)。总体而言,GEM集使整个细菌和古细菌系统发育树多样性提高了44%,基于累积分支长度,目前占所有已知多样性的31%

在不同类群中,系统发育多样性的增加相对一致,但对于某些大进化分支的物种,系统发育多样性尤其高,其中包括Planctomycetota(增长了79%),Verrucomicrobiota(增长了68%)和Patescibacteria(也被称为“Candidate Phyla Radiation”,增长了60%)(图3b和附表9)。GEM集在整个环境中产生了更多的变体的增加(附表10),尽管在最近MAG研究的先前分析的人类相关样本(图3b)中几乎没有发现新的多样性。值得注意的是,这些分析还表明,分类微生物多样性的系统发育多样性中的75%仅由未培养的基因组(即MAG或SAG)代表

图3 GEM集填补了生命之树中的空白

Fig. 3: The GEM catalog fills gaps in the tree of life.

a,基于30个普遍分布的单拷贝基因的串联比对,为45,599个OTU中的43,979个构建了系统发育树。完全比对包含4,689个氨基酸位点,每个OTU包含至少30%位点的数据。基于系统发生距离,将物种水平的OTU进一步聚类为1,928个近似等级的进化枝。绿色分支表示仅由GEM集代表的新谱系。内部的条形图指示是新识别的目(绿色;代表GEM)还是先前已知的目(浅灰色;代表参考基因组)。下一个彩带形图表示目是未培养的(蓝色;代表MAGs / SAG)还是已培养的(灰色;代表至少一个分离基因组)。接下来的四个带状图显示了目的环境分布;最后一个图表示从每个目中重构的GEM集中的MAG数量。尽管大多数新谱系散布在现有谱系之间,但GEM集的混合基因组广泛分布在生命树上,包括许多新的有序进化枝。树的广阔区域仅由未培养的基因组代表。b,针对由GEM集/参考基因组(绿色)或培养/未培养的基因组(蓝色)代表的子树计算了系统发育多样性。灰色条表示由每个分类组(左)或环境(右)代表的总系统发育多样性的百分比。GEM集不断扩展细菌和古细菌中以及不同环境下不同门的系统发育多样性。人类微生物组是一个例外,GEM集在其中几乎没有贡献新的多样性。将GEM集与其他未培养的基因组结合起来,很明显,未培养的基因组支配着大多数门和环境内的多样性,特别是对于Patecibacteria(Candidate Phyla Radiation)和纳古菌门(Nanoarchaeota)等群体。

为了确定GEM集是否包含较高分类学等级的新谱系,我们使用相对进化差异(relative evolutionary divergence,RED)将所有45,599个OTU聚类为单系,包括单体,分别代表16,062属,5,165个科,1,928个目,368个纲和129个门(附表11-13,附图7和方法)。在门的水平上,我们确定了16个进化支只代表GEM(1个进化枝属于细菌,5个进化枝属于古细菌),这可能表明有新的门。但是,这些进化枝仅由29个GEM支持,它们通过GTDB-Tk工具(28/29)很大程度上分配给已知门。在较低的分类学等级上,发现了更多的新物种,包括456个新目,1,525个新科和5,463个新属。我们得出的结论是,与早期的宏基因组分箱研究相比,发现了很多新谱系,大多数深度分支的谱系由当前的基因组序列代表。

GEM的编码功能的潜力

Encoded functional potential in the GEMs

为了提供系统级的代谢潜力快照(snapshot),我们为KBase中每个环境(n = 3,255)的40个以上代表的非冗余,高质量GEM建立了基因组规模/尺度(genome-scale)的代谢模型(附图8和9,附表 14和补充说明)。除了已知的代谢途径外,我们假设GEM集中的MAG包含新功能的库。为了解决这个问题,我们编制了一个5794,145个蛋白质簇(PC)的集合,代表了111,428,992个全长基因,其中51.7%的PC包含至少两个序列。与TIGRFAM或KEGG Orthology数据库相比,绝大多数PC均未进行功能注释,并且大多数PC甚至都缺少单个Pfam域(TIGRFAM,KEGG和Pfam未注释到的分别为95.2%,88.9%和74.5%)。相比之下,通过IMG/M获得76,000个参考细菌和古细菌基因组的2.7亿个基因集,这些基因在TIGRFAM,KEGG和Pfam未注释到的分别约为70%,50%和20%。大约70%的PC在三个平台中,功能都没注释到,并且47%与UniRef(一个数据量大且定期更新的蛋白质资源数据库https://www.uniprot.org)没有显著相似性。虽然最大的PC之前就知道,但大而复杂的PC却没有任何注释,包括至少具有1,000个成员的356个蛋白簇和至少具有100个成员的28,869个蛋白簇。

尽管系统地解释所有GEM的功能能力超出了本研究的范围,但在此我们提供一些说明。首先,我们发现,由于新古细菌门如Halobacterota,Hadesarchaea(包括Archaeoglobi和Syntrophoarchaeia)和Crenarchaeota在内的种群(例如Thermoprotei、Korarchaeia和Bathyarchaeia)的存在,GEM概述了最近对产甲烷作用范围延申的最新研究(附图10)。在较低的分类学等级上,我们在GEM中确定了一种新属Coxiella,其中包括与大量健康和经济负担相关的B级生物危险菌贝氏柯克斯体(Coxiella burnetii),这提供了一个获得新的见解的机会,可以深入研究宿主-病原体相互作用。在GEM中发现了几种毒力因子,包括用于将效应蛋白传递到宿主细胞质中的Dot/Icm IV型分泌系统(附图7)。但缺乏典型的C. burnetii T4SS效应蛋白。因此,GEM可以预测最高和最低分类学等级的潜在功能。

广泛和多样的次生代谢物生物合成的潜力

Broad and diverse secondary-metabolite biosynthetic potential

大多数次级代谢产物已从少部分可培养细菌中分离出来,这些细菌群包括链霉菌属(Streptomycetes)、假单胞菌(Pseudomonas)、芽孢杆菌属(Bacillus)和 链球菌属(Streptococcus)。最近,宏基因组数据的挖掘已从土壤中扩展到酸杆菌门(Acidobacteria), 疣微菌门(Verrucomicobia), 芽单胞菌门(Gemmatimonadetes)和Rokubacteria候选门(candidate phylum Rokubacteria)。GEM集提供了一个独特的机会去探索在分类学和生物地理学上多样化的基因组内编码次级代谢生物合成基因簇(biosynthetic gene clusters,BGCs)的特点。我们使用AntiSMASH(v5.1)从52,515个GEM中确定了104,211个假定的BGC区域(附表15)。为了进行比较,这意味着IMG/ABC中的BGC(Atlas of BGCs)增加了31%,是手动创建的MIBiG数据集的54倍。大约66%的GEM BGC与一个或多个重叠群边界相交,表明大多数可能是不完整的(附图12),这与以前基于碎片恢复(fragmented recovery)的观察结果一致。我们将每个BGC合成的次级代谢物对应于GEM集并进行分类(图4a)。从104种门中鉴定出总共44,835个基因簇或包含非核糖体肽合成酶/或聚酮化合物合酶(PKS)的簇片段,从79种门中鉴定出23738萜烯簇,从76种门中鉴定出了12360种核糖体加工肽(RiPP)簇。尽管碎片可能以不可控的方式使簇数量产生偏差,但据我们观察这种情况可能是正常的。例如,厚壁菌门(Firmicutes)的RiPP数量异常高(其BGC的一半以上是RiPP簇),而Thermoplasmatota和Verrucomicrobiota的萜烯簇数量相对较高(分别为BGC的68%和50%)。BGC的环境趋势分析不太清楚,没有环境来源组显示相对BGC家族含量有明显的偏差(图4a)。如果准确的话,这意味着特定的化学物质不受环境的限制或放大,并且大多数类别的次级代谢产物几乎可以在任何地方找到。

图4 从GEMs数据集中获得生物合成基因簇

Fig. 4: Biosynthetic gene clusters recovered from the GEMs dataset.

a,在优势门(左)和栖息地(右)中BGC类型的相对频率。BGC类型在整个门系中变化很大,但在生境之间相对稳定。AAmodifier,氨基酸修饰系统。b,最大的BGC区域,存在于Acidobacteria和UBA5704属的土壤细菌中。BGC使用三个共线性模块链对62个PKS或NRPS模块进行编码。

为了评估BGC的新颖性,我们将每个BGC序列与NCBI核苷酸序列对比。用75%相似度去比对,长度覆盖超80%的序列,我们确定87,187(83%)个是编码新化学过程的新BGC(附表16)。尽管许多模块簇是零散的,但我们鉴定了3,000个BGC区域,且长度> 50 kb,超过17,000个BGC区域> 30 kb。

同时,GEM集拥有预测新BGC的丰富资源潜力,并提供了充分的机会探索已知进化枝之外的生物合成潜力。如上所述,黏球菌属(Myxococcus)显示较好的生物合成潜力,在232个MAG上有1,751个区域,并且由antiSMASH定义的BGC家族种类繁多。单个最大的BGC区域位于酸杆菌门(Acidobacteria)和UBA5704属的土壤细菌中,编码数量较多的62个PKS或NRPS模块,同时具有三个清晰的共线性模块链(图4b)。尽管一些酸杆菌门已知包含PKS和NRPS簇,但该MAG包含额外的66个BGC区域,说明酸杆菌门的生物合成潜力水平之前可能被低估。

GEMs揭示了新病毒-宿主的联系

GEMs reveal thousands of new virus–host connections

除了装配微生物基因组外,最近的研究还强调了如何从宏基因组挖掘新病毒基因组。但是,大多数未经培养的病毒不能与微生物宿主相关,这对于了解它们在自然界中的作用和影响至关重要。我们认为,GEM集中的MAG可用于改善病毒基因组的宿主预测。为了解决这个问题,我们将IMG/VR56中的52,515个GEM和760,453病毒与CRISPR-spacer匹配(≤1 SNP)和基因组序列匹配(> 500 bp时> 90%的同一性)比对,都具有较好的一致性(补充说明)。IMG/VR病毒已匹配到一致的宿主分类单元(每种病毒与同一宿主达到95%的匹配),并且超过96%病毒和GEM的已关联到与GOLD environmental ontology数据库最相似环境中

图5 MAG解决了宿与病毒的关联问题

Fig. 5: MAGs resolve host–virus connectivity.

a,GEM集中的细菌和古细菌门与病毒相关。条形图显示与包含100个或更多MAG的每个门的病毒链接的MAG的百分比。门的名称来自GTDB,右边的数字代表每个门的MAG数量 。条形颜色表示将病毒关联到宿主的比例。白色表示与任何病毒无关的MAG的百分比。

b,DJR病毒的系统发育以及相关的宿主信息。对于与同一宿主组关联的三个或更多DJR序列的每个进化枝,该进化枝旁边显示宿主信息,以及将该DJR进化枝与该宿主组连接的序列数,首先是参考序列,然后是GEM集。参考序列获自Kauffman等人。进化枝会根据宿主信息的来源进行着色,而从GEM集中唯一识别的新宿主组将以粗体突出显示。所有支持> 50%的节点将显示为多分叉,而支持率> 80%的节点将以黑点突出显示。

使用这两种方法的组合,我们预测了81,449个IMG/VR病毒和23,082个GEM之间的关联(图5a和附表17),带有预测宿主的IMG/VR病毒总数增加了> 2.5倍(从 36,976至92,872)。但是,这些增加的病毒-宿主关联仍然只覆盖了IMG/VR 760,453个病毒基因组的10.7%和GEM集中MAG的44.0%。对于某些门类(例如,Thermoplasmatota)来说,其中病毒仅与624个组装的MAG的1.6%相关。

为了解决这个限制,我们在仔细清除病毒污染后,使用VirSorter从头预测在GEMs中的整合噬菌体。这种方法还提供了10,410个与7,805个GEM相关的病毒。这些新的源自MAG的病毒-宿主关联包括几类尚未充分研究的进化枝,如double jelly roll (DJR) 谱系,这是一种通常被忽视的非尾双链DNA病毒。DJR病毒多样性的最新研究表明,该组成员感染了生活的三个域的宿主,但他们也突出了没有已知宿主的亚种。在这里,我们在GEM集中确定了73个DJR序列,这些序列为另外四个DJR进化枝提供了宿主信息(图5b)。此外,这些进化枝中的两个通过GEM与尚未鉴定为假定DJR宿主的未培养细菌和古细菌群体(即Omnitrophica和Nanoarchaeota)相关联。除DJR组外,我们还鉴定了两个单链DNA病毒家族的假定宿主,包括四个Microviridae和28个Inoviridae(附图12和附表18)。这些不同的例子加在一起说明了MAG如何解决新型的病毒与宿主的联系。

讨论

拥有52,515个中高品质MAG的资源代表了目前最大的成就,为了获得整个地球生物群系中细菌和古细菌基因组多样性的广度。GEM集大大扩展了细菌和古细菌的已知系统发育多样性,增加了宏基因组测序读长的可比对率,具有丰富的生物合成潜力,并改善了未培养病毒的宿主联系。尽管细菌和古细菌的系统发育多样性总体增加了44%,但我们发现几乎没有证据表明新的深度分支能产生新的门类,与最近对微生物多样性的研究一致。同样,尽管宏基因组读长的使用率增加了3.6倍,但仍超过三分之二的宏基因组读长仍缺乏可比对的参考基因组。因此,继续努力获得新物种和菌株的基因组将会进一步提高宏基因组学的实用性和适用性

大规模的基因组数据为更广泛的研究提供了重要的资源。也就是说,GEM集中的MAG就像迄今为止生成的其他MAG一样,有一些局限性供用户需要注意,包括未检测到的污染,低连续性和不完整性。尽管这些MAG是许多新候选物种的重要占位符,但我们希望将来许多新的物种将被更高质量的MAG或最终被分离出的菌株基因组序列所取代。正如我们以新的次生代谢物BGCs和假定病毒-宿主关联所示,我们预计GEM集将成为未来代谢和以基因组为中心的数据挖掘和实验验证的宝贵资源

方法

宏基因组样本和组装

Metagenomic samples and assembly

对于基因组分箱,我们使用了来自IMG / M数据库的10,450个宏基因组组装结果,对应于527项研究和来自无数微生物环境的10,331个样品(补充表1)。使用最新的组装流程为该工作重新组装了大多数(10,450个中的6,380个;61%):使用BFC进行读长过滤,然后使用带有选项“—meta”的metaSPAdes进行组装。如Huntemann等人[62]所述,使用多种质量控制和组装方法从IMG / M组装了宏基因组。在有未装配的宏基因组的情况下,使用带有默认参数的BWA-MEM63将读数比对回组装的重叠群,并使用SAMtools产生重叠群覆盖信息。

宏基因组分箱和质量控制

Metagenome binning and quality control

使用MetaBAT v0.32.5的四核苷酸频率恢复了单个宏基因组样本装配的MAG,使用选项“-superspecific”(补充表2)。在可获得的情况下使用深度信息,并丢弃少于3,000 bp的重叠群。所得MAG的提纯分两个阶段。首先,使用RefineM(v0.0.20)去除具有异常读长深度、GC含量和/或四核苷酸频率的重叠群。其次,除去门分类冲突的重叠群。重叠群的分类学注释是基于蛋白质水平对IMG / M数据库(2017年12月7日下载)进行的比对,使用Last aligner(v876)并以分类基因的最低共同祖先获得。

使用CheckM(v1.0.11)通过谱系特异的工作流程评估了所有MAG的完整性和污染性。根据这些结果,我们选择了52,515个MAG,这些MAG估计至少50%完成,污染少于5%,质量得分 > 50(定义为基因组的估计完整性减去其五倍估计的污染率)。。作为完整性的其他指标,我们使用Rfam数据库的模型使用tRNAscan-SE(v2.0)鉴定了tRNA基因,使用Infernal(v1.1.2)鉴定了rRNA基因。根据这些结果,我们发现,根据MIMAG标准(≥90%完整性,≤5%污染,≥18/20 tRNA基因以及5S,16S和23S rRNA基因的存在),在52,515个MAG中有9,143个被归类为高质量。),其余分类为中等质量。这52,515个MAG构成了GEM数据集。

宏因组读长募集到MAG和参考基因组

Metagenomic read recruitment to MAGs and reference genomes

我们选择了3170个宏基因组学样本,这些样本具有来自联合基因组研究所和序列读长档案数据库的可用序列读取,以量化可比对率(补充表4)。将每个宏基因组的多达500,000个读长与包含52,515个GEM的数据库和包含151,730个来自NCBI RefSeq(版本93)的基因组的数据库进行比对。我们每个宏基因组仅使用了500,000次读取,代表整个数据集读长中0.84%的中位数(IQR = 0.40–1.78%),以避免比对所有读长的高计算成本,这与之前的分析一致。使用Bowtie(v2.3.2)在“端对端(end-to-end)”模式下使用选项“非常敏感(—very-sensitive)”执行读取对齐,每次读长最多保留20个比对结果。对齐后,我们丢弃了平均碱基质量得分小于30,长度小于70bp的低质量读长或任何歧义的碱基检出。此外,我们丢弃了编辑距离(edit distance)超过每100 bp 5个碱基(即,一致性小于95%)的较差比对结果。

将MAG聚类为物种级OTU

Clustering MAGs into species-level OTUs

在95%的全基因组ANI的基础上,将来自GEM数据集的52,515个MAG聚类为18,028个物种级OTU(补充表2和5)。ANI是使用MUMmer(v4.0.0)估算,使用默认参数来计算基因组之间一对一比对的平均DNA一致性。丢弃覆盖任一基因组的<30%的比对。我们使用30%的AF阈值,而不是之前的研究建议使用60%的AF,以避免形成由不完整的基因组引起的假OTU。进行基于质心的聚类,其中将CheckM质量得分最高的MAG指定为质心,并将ANI中距质心95%的所有MAG分配给同一聚类。作为验证,我们量化了分配给已知物种的23,009个MAG的物种级别OTU与GTDB分类法的相似性。两个数据集代表的物种数量相似(3,537个OTU与GTDB的3481个),并且在两个数据库中,MAG倾向于分配给相同的物种(adjusted Rand Index = 0.99)。

在公共数据库中将MAG与> 500,000个基因组进行比较

Comparing MAGs to >500,000 genomes in public databases

我们将来自18,028个OTU的代表性基因组与大量公众可获得的参考基因组进行了比较。从各种来源获得了大约564,467个参考基因组,包括IMG / M(59,047个分离物,8,412个MAG和7,066个SAG),NCBI RefSeq(93个释放;151,730个分离物),GenBank(29,127个MAG和1,555个SAG)和来自最近人类相关的MAG的三项研究(307,530)。CheckM应用于所有参考文献,我们选择了符合GEM数据集相同最低质量标准的文献(完整性> 50%,污染<5%,质量得分> 50)。这最终获得了来自IMG / M(56,884个分离物,6,146个MAG和1,475个SAG),NCBI RefSeq(93个版本;150,245个分离物),GenBank(23,162个MAG和717个SAG)以及来自三个最近的人类相关MAG的524,046个参考集研究。我们首先使用草图大小为10,000的Mash(v2.0)查找与18,028个OTU中最相似的参考基因组。其次,我们使用带有默认参数的MUMmer(v4.0.0)来估计基因对之间的ANI。基于此分析,我们发现有12,556个OTU(占总数的69.4%)在ANI> 95%和覆盖度超过30%时不匹配任何参考基因组。接下来,我们确定了仅由参考基因组代表的OTU。首先,我们将364,602个参考基因组分配给来自GEM数据集的5,472个参考OTU中的一个,基于超过95%的ANI和超过30%覆盖的基因组。使用MUMmer,基于95%ANI,将其余159,444个参考基因组聚集成27,571个其他OTU。结果是代表所有GEM和参考基因组的45,599个OTU的最终数据集

构建非冗余MAG和参考基因组的系统发育

Constructing a phylogeny of nonredundant MAGs and reference genomes

我们基于来自PhyEco数据库的30个基因的子集构建了45,599个OTU的多标记基因树,这些单拷贝基因在99%基因组的搜索到(补充表8)。HMMER(v3.1b2)用于使用标记基因特异性位得分阈值鉴定每个OTU基因组中标记基因的同源物。为了减轻不完整基因组中的缺失数据,我们针对30个标记基因中的每一个,汇集了来自同一OTU(使用最多10个基因组,根据CheckM质量选择)的基因组同源物。然后,我们为每个OTU中的每个标记基因选择了质心基因,它代表与同一OTU的其他成员具有最高相似性的基因。使用具有默认参数的FAMSA(v1.2.5)为每个标记基因创建了质心的多个序列比对。使用trimA1(v1.4;选项-> 0.90)修剪间隔 > 10%的列,将单个标记基因比对连接在一起,并去除间隔> 70%的缺失序列。串联的多个序列比对包含4,689列和43,979个序列。FastTree(v2.1.10)用于使用WAG + GAMMA模型构建近似最大似然树。

系统树用最近描述的方法进一步将45,599个OTU按属,科,序,类和门的级别聚类为单系统组。简而言之,这棵树植根于细菌和古细菌之间,并为每个域提取了一个小分支。OTU根据其RED分为自举支持值 > 0.7的单系统组。确定了特定于等级的RED临界值,以最大程度地提高与已知进化枝OTU的GTDB分类法的相似性,其中相似性是使用Python(v0.21.3)81中的scikit-learn软件包计算出的调整后的相互信息统计量来衡量的(补充。7和补充表10-12)。仅包含GEM的单系进化枝被认为是新近鉴定的谱系,包括由单个GEM代表的谱系。

次级代谢

Secondary metabolism

使用默认设置的AntiSMASH(v5.1)识别了次代谢BGC区域,忽略了长度小于5kb的重叠群。使用NCBI BLAST+软件包(v2.9)中的“ blastn”命令将BGC与NCBI核苷酸数据库(2019年10月7日下载)中的BGC进行了比较,E值的阈值为1×10 -1 。分析结果以评估最佳匹配,我们认为冗余聚类(即先前测序工作中看到的那些)是与数据库匹配的BGC序列,匹配BGC查询长度的80%或更多,平均序列同一性为75%或更多。为了计数BGC生化,基于 BiG-SCAPE软件包建议的类别将46种由AntiSMASH生成的特定BGC家族归类为以下六个更广泛的组之一:’PKS’,’NRPS’,’萜烯’,’RiPP’,’AAmodifier’和’其他’,。

将MAG与IMG/VR和VirSorter识别出的病毒建立联系

Connecting MAGs to viruses identified from IMG/VR and VirSorter

利用CRISPR-spacer匹配和病毒与MAGs之间的序列相似性,将MAGs用于预测IMG / VR的81,449个病毒基因组的宿主。使用CRT和PILER-CR的组合在MAG中长于10kb的重叠群上鉴定CRISPR阵列。为了最大程度地减少虚假的预测,我们丢弃了少于三个间隔子的阵列,不保守重复的序列(与共识重复的平均同一性<97%)或MAGs中包含少于四个CRISPR相关蛋白的那些。这导致在13,540个MAG中的23,851个阵列中鉴定出长度超过25bp的567,316个CRISPR间隔子。通过将间隔子与blastn对齐到760,453个IMG / VR基因组,并鉴定出近乎完美的匹配(最多一个不匹配,覆盖至少95%的间隔子长度)来鉴定原型间隔子。另外,使用blastn将MAG重叠群与IMG / VR基因组比对以鉴定整合的噬菌体序列。如果IMG / VR基因组在大于500 bp的重叠群中以> 90%的同一性比> IMG / VR基因组长度的> 1.5倍对齐,则确定它整合在MAG中。小于IMG / VR基因组长度1.5倍的重叠群被认为是“完整病毒序列”,由于缺乏宿主信息以及可能存在不正确的分箱而被丢弃(即基于病毒基因组特征进行分箱而不是宿主)

为了最大化在MAG中识别出的噬菌体数量,我们使用VirSorter(v1.0.3)进行了从头预测,保留了第4类和第5类的所有预测。为了排除可能腐烂的噬菌体,即整合的病毒基因组现在不活跃然后从宿主基因组中逐渐删除,所有预测均排除了表现出对Pfam最佳影响的30%或更多的基因(阈值:hmmsearch得分≥50和E≤0.001)。通过过滤与IMG / VR先前检测到的81,449个病毒基因组中的任何一个重叠群,可将在> 500bp上显示出> 90%DNA同一性的重叠群进一步减少。

选定病毒组的详细调查

Detailed investigation of selected virus groups

进一步研究了基于MAG的连锁的温和或慢性病毒,包括DJR衣壳病毒(双链DNA温和噬菌体和古病毒),病毒(带慢性感染周期的单链DNA病毒)和微病毒科(单链) DNA病毒,裂解或溶原性循环)。通过从Kauffman等人的序列中,从已知的DJR主要衣壳蛋白构建的隐马尔可夫模型中,搜索来自宏基因组重叠群的预测蛋白,从而明确识别DJR序列。搜索是通过HMMER(v3.1b2)套件中的hmmsearch计算得出的,选择的匹配项的hmmsearch得分≥50,且E≤0.001。VirSorter最初以较低的置信度(类别6)预测了另外81个DJR序列。此外,基于最近开发的一种定制方法,在MAG中鉴定了丝状病毒,该方法是在基因组组装之前在同一宏基因组组件中鉴定类似丝状病毒的序列。

对于DJR和Microviridae,系统发育建立如下:使用“ einsi”模式通过MAFFT(v7.407)计算多重比对;使用“ gappyout”选项,使用trimAl(v1.4.rev15)自动修剪比对结果;该树是使用IQ-TREE(v1.5.5)构建的,具有1000个超快自展并自动选择了演化模型。主要衣壳蛋白序列用于DJR比对,参考文献来自Kauffman等。同样,主要衣壳蛋白序列用于Microviridae的比对,从Microviridae基因组获得的参考文献可在NCBI RefSeq和GenBank数据库中获得(截至2019年10月)。此外,还包括了来自NCBI RefSeq细菌基因组的针对每个GEM 微小噬菌体科序列的20个最佳blast比对结果,以在树中包含其他假定的原噬菌体。对于丝状病毒,使用MUMmer4阈值为95%ANI和70%AF,将GEM 微小噬菌体科序列映射到最近描述的微小噬菌体科基因组集,从而使用先前概述的基于基因内容的分类。

Reference

Stephen Nayfach, Simon Roux, Rekha Seshadri, Daniel Udwary, Neha Varghese, Frederik Schulz, Dongying Wu, David Paez-Espino, I. Min Chen, Marcel Huntemann, Krishna Palaniappan, Joshua Ladau, Supratim Mukherjee, T. B. K. Reddy, Torben Nielsen, Edward Kirton, José P. Faria, Janaka N. Edirisinghe, Christopher S. Henry, Sean P. Jungbluth, Dylan Chivian, Paramvir Dehal, Elisha M. Wood-Charlson, Adam P. Arkin, Susannah G. Tringe, Axel Visel, Helena Abreu, Silvia G. Acinas, Eric Allen, Michelle A. Allen, Gary Andersen, Alexandre M. Anesio, Graeme Attwood, Viridiana Avila-Magaña, Yacine Badis, Jake Bailey, Brett Baker, Petr Baldrian, Hazel A. Barton, David A. C. Beck, Eric D. Becraft, Harry R. Beller, J. Michael Beman, Rizlan Bernier-Latmani, Timothy D. Berry, Anthony Bertagnolli, Stefan Bertilsson, Jennifer M. Bhatnagar, Jordan T. Bird, Sara E. Blumer-Schuette, Brendan Bohannan, Mikayla A. Borton, Allyson Brady, Susan H. Brawley, Juliet Brodie, Steven Brown, Jennifer R. Brum, Andreas Brune, Donald A. Bryant, Alison Buchan, Daniel H. Buckley, Joy Buongiorno, Hinsby Cadillo-Quiroz, Sean M. Caffrey, Ashley N. Campbell, Barbara Campbell, Stephanie Carr, JoLynn Carroll, S. Craig Cary, Anna M. Cates, Rose Ann Cattolico, Ricardo Cavicchioli, Ludmila Chistoserdova, Maureen L. Coleman, Philippe Constant, Jonathan M. Conway, Walter P. Mac Cormack, Sean Crowe, Byron Crump, Cameron Currie, Rebecca Daly, Vincent Denef, Stuart E. Denman, Adey Desta, Hebe Dionisi, Jeremy Dodsworth, Nina Dombrowski, Timothy Donohue, Mark Dopson, Timothy Driscoll, Peter Dunfield, Christopher L. Dupont, Katherine A. Dynarski, Virginia Edgcomb, Elizabeth A. Edwards, Mostafa S. Elshahed, Israel Figueroa, Beverly Flood, Nathaniel Fortney, Caroline S. Fortunato, Christopher Francis, Claire M. M. Gachon, Sarahi L. Garcia, Maria C. Gazitua, Terry Gentry, Lena Gerwick, Javad Gharechahi, Peter Girguis, John Gladden, Mary Gradoville, Stephen E. Grasby, Kelly Gravuer, Christen L. Grettenberger, Robert J. Gruninger, Jiarong Guo, Mussie Y. Habteselassie, Steven J. Hallam, Roland Hatzenpichler, Bela Hausmann, Terry C. Hazen, Brian Hedlund, Cynthia Henny, Lydie Herfort, Maria Hernandez, Olivia S. Hershey, Matthias Hess, Emily B. Hollister, Laura A. Hug, Dana Hunt, Janet Jansson, Jessica Jarett, Vitaly V. Kadnikov, Charlene Kelly, Robert Kelly, William Kelly, Cheryl A. Kerfeld, Jeff Kimbrel, Jonathan L. Klassen, Konstantinos T. Konstantinidis, Laura L. Lee, Wen-Jun Li, Andrew J. Loder, Alexander Loy, Mariana Lozada, Barbara MacGregor, Cara Magnabosco, Aline Maria da Silva, R. Michael McKay, Katherine McMahon, Chris S. McSweeney, Mónica Medina, Laura Meredith, Jessica Mizzi, Thomas Mock, Lily Momper, Mary Ann Moran, Connor Morgan-Lang, Duane Moser, Gerard Muyzer, David Myrold, Maisie Nash, Camilla L. Nesbø, Anthony P. Neumann, Rebecca B. Neumann, Daniel Noguera, Trent Northen, Jeanette Norton, Brent Nowinski, Klaus Nüsslein, Michelle A. O’Malley, Rafael S. Oliveira, Valeria Maia de Oliveira, Tullis Onstott, Jay Osvatic, Yang Ouyang, Maria Pachiadaki, Jacob Parnell, Laila P. Partida-Martinez, Kabir G. Peay, Dale Pelletier, Xuefeng Peng, Michael Pester, Jennifer Pett-Ridge, Sari Peura, Petra Pjevac, Alvaro M. Plominsky, Anja Poehlein, Phillip B. Pope, Nikolai Ravin, Molly C. Redmond, Rebecca Reiss, Virginia Rich, Christian Rinke, Jorge L. Mazza Rodrigues, Karen Rossmassler, Joshua Sackett, Ghasem Hosseini Salekdeh, Scott Saleska, Matthew Scarborough, Daniel Schachtman, Christopher W. Schadt, Matthew Schrenk, Alexander Sczyrba, Aditi Sengupta, Joao C. Setubal, Ashley Shade, Christine Sharp, David H. Sherman, Olga V. Shubenkova, Isabel Natalia Sierra-Garcia, Rachel Simister, Holly Simon, Sara Sjöling, Joan Slonczewski, Rafael Soares Correa de Souza, John R. Spear, James C. Stegen, Ramunas Stepanauskas, Frank Stewart, Garret Suen, Matthew Sullivan, Dawn Sumner, Brandon K. Swan, Wesley Swingley, Jonathan Tarn, Gordon T. Taylor, Hanno Teeling, Memory Tekere, Andreas Teske, Torsten Thomas, Cameron Thrash, James Tiedje, Claire S. Ting, Benjamin Tully, Gene Tyson, Osvlado Ulloa, David L. Valentine, Marc W. Van Goethem, Jean VanderGheynst, Tobin J. Verbeke, John Vollmers, Aurèle Vuillemin, Nicholas B. Waldo, David A. Walsh, Bart C. Weimer, Thea Whitman, Paul van der Wielen, Michael Wilkins, Timothy J. Williams, Ben Woodcroft, Jamie Woolet, Kelly Wrighton, Jun Ye, Erica B. Young, Noha H. Youssef, Feiqiao Brian Yu, Tamara I. Zemskaya, Ryan Ziels, Tanja Woyke, Nigel J. Mouncey, Natalia N. Ivanova, Nikos C. Kyrpides, Emiley A. Eloe-Fadrosh & Img M. Data Consortium. (2020). A genomic catalog of Earth’s microbiomes. Nature Biotechnology, doi: https://doi.org/10.1038/s41587-020-0718-6

(0)

相关推荐