科研 | Nature Biotechnology:来自人类肠道微生物组的204,938个参考基因组数据库

编译:流年梦,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

全面、高质量的参考基因组对于人类肠道菌群的功能特性和分类学分配研究至关重要。该研究提供了统一的人类肠道微生物基因组(UHGG)数据库,包括4,644个肠道原核生物的204,938个非冗余基因组。这些基因组编码1.7亿个蛋白序列,并将其整理在统一的人类肠道微生物蛋白(UHGP)目录中。与IGC数据库相比,UHGP的肠道微生物蛋白数量增加了一倍以上。另外,该研究发现超过70%的UHGG物种属于未培养的物种,40%的UHGP缺乏功能注释。同时该研究发现存在有大量的辅助基因和单核苷酸变异。总体而言,该研究提供的UHGG和UHGP目录提高了物种和功能的覆盖度,将使人类肠道微生物组基因型与表型的研究成为可能。

论文ID

原名:A unified catalog of 204,938 reference genomes from the human gut microbiome

译名:来自人类肠道微生物组的204,938个参考基因组的数据库

期刊:Nature Biotechnology

IF:36.558

时间:2020.07

通讯作者:Robert D. Finn

通讯作者单位:欧洲生物信息研究所(英国)

Search Results

Web results那不勒斯腓特烈二世大学

实验设计

该研究从几大数据库收集了目前已发布的纯培养微生物的基因组以及宏基因组组装基因组(MAGs)。纯培养微生物的基因组来源数据库包括HBC,CGR,NCBI,PATRIC,IMG;MAGs来源数据库包括CIBIO,EBI,HGM。MAGs筛选标准为完整度大于50%,污染度小于5%,评估质量得分大于50。作者将这些基因组构建了目前最全的人体基因组数据库-UHGG,以及相对应的蛋白数据库-UHGP。

结果

1. UHGG目录存在中超过200,000个人类肠道基因组

该研究共获得286,997个基因组,数据库来源特征为HBC(734个),CGR(1,519个),NCBI(651个),PATRIC/IMG(7,744),CIBIO(137,474),EBI(87,386),HGM(51,489)(图1a)。由于三个MAGs数据分析数据库中有一些样本是重复的,所以该研究以99.9%核酸序列相似度聚类,共获得204,938个非冗余基因组。这些基因组来源于六大洲的31个国家,其中大部分来源于中国、丹麦、西班牙和美国(图1b)。

为探索所收集的基因组涵盖多少个物种,以95%ANI和30%AF为最低阈值进行聚类,共获得4,644个推测的原核物种,包括4,616个细菌和28个古菌。以基因组完整度、污染度以及组装结果N50为参考依据,选择每个物种的代表基因组,组成UHGG目录(图1c)。4,616个基因组中,完整度大于90%,污染度小于5%的有3,207。573个基因组具有5S,16S和23S rRNA基因以及至少18个标准tRNA,其中38个属于MAGs,535个属于纯培养来源的基因组。使用Genome Taxonomy Database Toolkit来确定这些基因组的物种信息,发现有60%的基因组无法匹配到已存在的物种,说明大部分UHGG数据库中的物种信息在目前的数据库中是缺乏的。

图1人类肠道微生物的统一序列目录。a 不同数据库中基因组的数量;b 基因组数量地理分布;c UHGG和UHGP数据库的构建过程。

2. 比较在个别研究中恢复的物种

该研究分析了在不同的研究中发现的微生物物种和数量,以确定它们的重叠程度和再现性,以及培养和未培养菌种之间的比例(图2a)。尽管CIBIO,EBI,HGM数据库在处理宏基因组测序数据流程不同,但是所获得的MAGs存在很大的交集(1,080),并且这些物种在可培养的研究中是未被发现的。进一步分析了在三个数据库共有样本中输出的物种的重叠性,93-97%的物种至少存在于两个数据库中,79-86%的物种存在于三个数据库中。在不同数据库中所提取到的同种基因组经常有较大的相似性,ANI的中位数未99.9%,AF的中位数为92.1%(对于完整度大于90%的MAGs,AF的中位数为94.5%;质量一般的MAGs,AF的中位数未86.6%)。这些结果表明,对人类肠道MAGs的大规模研究总体上恢复了高度相似的基因组,但是对于完整度小于90%的MAGs在下游分析时要小心。

如图2b所示,未培养微生物的稀释曲线并未饱和,但是选择至少存在两个基因组的物种时,稀释曲线趋于饱和。说明依然存在未发现的物种,并且很可能属于稀有物种。

比较可培养数据库(HBC,CGR,NCBI)的重叠度,仅有10%的物种在三个数据库中重叠,70%的物种仅出现在一个数据库中(图3d)。

3. 大部分肠道微生物缺少基因组

该研究发现UHGG数据库中3,750个(81%)物种是目前可培养数据库所缺少的。该研究进一步将UHGG目录与NCBI RefSeq数据库中的纯培养微生物的基因组进行了比较,发现了438个与培养基因组紧密匹配的物种(88个来源于人体,29个来源于其他动物,3个来源于植物,318个来源未知),剩下的3,312个UHGG(71%)物种属于未培养。

该研究比较了不同物种分类中可培养微生物和未培养微生物的基因组数量的比例,发现纯培养物微生物的数量较多,而那些仅有MAGs的物种基因组数量较少(图3a),证明这些物种往往是较罕见的。在25个最大分支的细菌群中,只有2个分支仅有MAGs(图2c),1,212未培养物种仅有单个基因组。进一步,通过计算每个大陆上发现物种在样本中所占比例的香农多样性指数来推断每个物种的地理多样性水平。最大的物种群显示出相应高水平的地理分布。

该研究进一步分析了UHGG目录对研究人体肠道微生物物种多样性的推动作用,分析1,005个独立的宏基因组比对到4,644UHGG物种的mapping率(图2d),中位数为85.9%。与标准RefSeq数据库分析相比,mapping率提高了155%,说明UHGG目录在改进对这些未得到充分研究的种群的微生物组多样性研究方面的潜力。

4,616个细菌和28个古菌的进化发育分布显示未培养物种分别占细菌和古菌系统发育多样性的66%和31%(图3a),几个门缺乏代表可培养物种的基因组(图3b)。缺少培养基因组的四个最大的单系类群是4C28d-15目(图3c)、RF39目、CAG-272科、Gastranaerophilales目。虽然可培养研究已被推动,但是许多肠道微生物仍然没有被分离培养,包括几个较大、普遍的进化分支中的物种。

图2. a 跨数据库发现的物种数量,按其重叠程度排序。竖条代表了特定数据库之间共有的物种数量,下方的水平条表示每个数据库中所包含的物种总数;b 随着基因组的增加,物种数量增加的稀释曲线,黑色代表所有的物种,灰色代表只要在两个样本中存在的物种;c 每个物种非冗余基因组的数量以及地理分布多样性;d 左图代表1,005个宏基因组数据中比对到UHGG的reads mapping率,右图代表相对于标准分析的改进程度。
图3 在人类肠道中,未培养的微生物种类占主导地位。a 4,161个细菌物种的最大似然种系发生树,内圈的颜色用于区分物种是否可培养,中圈的不同颜色代表不同的分类(门水平),最外层的柱状图代表对应物种的基因组数量;b 25个原核门内物种的不同培养状态比例;c Comantemales ord. nov分类中的物种进化树,每个物种的地理分布和基因组数在树下表示。

4. 拓展人体肠道微生物组的蛋白数据集

该研究进一步构建了包含625,255,473全长蛋白序列的UHGP目录。以不同的相似度构建非冗余数据集50%(UHGP-50),95%(UHGP-95)和100%(UHGP-100),包含5百万到1.71亿个蛋白簇(图1c)。稀释曲线显示,以95%和100%相似性聚类时,未达到饱和点,以50%相似度聚类时,已到达饱和点(图4a)。

该研究进一步比较了UHGP与现有的人类肠道基因目录(IGC)的覆盖度。UHGP-90含有13,910,025个蛋白簇,IGC-90含有7,063,891个蛋白簇(收集了1,267个肠道宏基因组组装)。两个数据库来源相比,UHGP除了涵盖了IGC的全部数据来源(除了59个转录组数据集),还包括了更大、更多地理多样性来源的宏基因组数据集。通过合并UHGP-90和IGC-90,获得1520万个蛋白簇,其中存在580万蛋白簇的交集(图4b)。说明IGC中81%的蛋白簇存在于UHGP数据库中,剩余的19%可能代表原核生物基因组的MAGs完整度<50%,或来源于病毒、真核、质粒或其他未被绑定到MAGs中的序列。总体而言,与IGC数据库相比,UHGP提高了115%的蛋白序列覆盖度(从7,063,891到15,217,595)。

进一步比较了1,005个宏基因组样本在不同数据库选择中的mapping率,结果显示,与IGC-90相比,UHGP-90的增加幅度较小(5%)。这些结果表明,尽管UHGP总体上包含了更多的蛋白簇,但大多数新添加的蛋白在个体样本中的丰度或流行度较低。另外,由于UHGP是由单个基因组产生的,而不是由其原始未绑定的元基因组集合产生的,因此该研究的数据库还有一个优势:提供了每个基因簇与其原始基因组之间的直接链接。

图4 UHGP提高了人类肠道蛋白分析的覆盖率。a在不同聚类阈值下,随着基因组数量的增加,蛋白簇数量增加的稀释曲线;b UHGP-90和IGC-90数据集的交集。c UHGP数据集中的蛋白簇在COG注释结果。

5. 人体肠道微生物组的功能

该研究使用多个数据库对UHGP进行注释,包括eggNOG,InterPro,COG和KEGG。结果显示,41.5%的UHGP-100是没有注释到具体功能的,其中27.3%在任何数据库中均未匹配到,14.2%在COG数据库中匹配到的是未知功能(图4c)。根据COG功能的分布,最具代表性的功能分类是与氨基酸转运和代谢、细胞壁/膜/包膜生物发生和转录有关的。

该研究进一步利用从人类肠道基因组中提取的1.71亿蛋白质,探索每个UHGG物种内部的功能多样性。所有同源基因组的蛋白质序列以90%氨基酸的身份聚集在一起,生成每个物种的泛基因组。对UHGG物种泛基因组的功能分析发现,涉及到的KEGG模块共有363个。大多数保守的模块与核糖体结构、糖酵解、肌苷单磷酸生物合成、糖异生和莽草酸途径有关,这些都是必需的细菌功能。但是,我们发现有一些门的微生物泛基因组的很大一部分是缺乏功能信息的,例如Myxococcota,Bdellovibrionota,Thermoplasmatota,Patescibacteria和Verrucomicrobiota。Fibrobacterota,Bacteroidota,Firmicutes I,Verrucomicrobiota和Patescibacteria进化分支中的物种基因组中编码碳水化合物活性酶基因的比例最高。因为这些进化分支大部分是由未培养的物种代表(图3d),这表明肠道菌群可能孕育了许多具有重要代谢活性的物种,尚未在实验室条件下进行培养和功能表征

6. 物种内部的多样性模式

通过对每个UHGG物种的蛋白注释和泛基因组推断,该研究探索了它们的种内核心和附属基因组。该研究只分析了接近完整的基因组(完整度≥90%)和至少有10个独立的同源基因组的物种。在这里考虑的781个物种中,每个物种的基因频率的总体模式显示了一个独特的双峰分布,大多数基因被分为核心基因(分布频率≥90%)和罕见基因(<10%)。该研究分析了每个物种的泛基因组大小与同种基因组数量的关系,以寻找种内基因丰富度的差异。研究结果显示不同门的微生物有不同的模式,厚壁菌门的物种显示出最高的基因增加速度(图5a)。即使在有超过1000个基因组的演化分支中,不同物种之间的核心基因比例也存在很大差异(图5b)。

为了区分核心基因和附属基因的编码功能,该研究分析了它们的注释信息。核心基因被很好地注释,在eggNOG、InterPro、COG和KEGG数据库中注释到基因百分比的中位数分别为96%、94%、92%和69%(图5c)。相比之下,辅助基因的注释结果中的未知功能比例明显更高(P<0.001),21%的基因在任何数据库中都未得到匹配。在COG功能分类基础上,该研究分析核心基因和附属基因编码的功能差异。被归类为核心的基因与核苷酸、氨基酸和脂质代谢等关键代谢功能以及其他管家功能(例如与翻译和核糖体结构有关的功能)显著相关(图5d)。辅助基因多数为功能未知的COG分类以及与复制和重组相关的功能(图5d)。有相当数量的辅助基因与防御机制有关,防御机制不仅包括ABC转运体外排泵等抗菌素耐药性的一般机制,还包括针对入侵MGEs的系统(例如CRISPR-抗噬菌体的Cas和限制性修饰系统)。

接下来研究了在UHGG数据库中种内单核苷酸变异(SNVs)。该研究生成了一个包含249,435,699个SNV的目录,这些snv来自2,489个物种(图6a)。值得注意的是,超过85%的SNVs是在MAGs中单独检测到的,而只有2.2%是单独存在于纯培养微生物基因组(图6b)。该研究发现MAGs之间的整体两两配对SNV密度比在分离基因组之间观察到的要高(图6c)。接下来,该研究将检测到的SNV分配到每个基因组的起源大陆,并观察到36%SNV是来源于特定大陆的。值得注意的是,源自欧洲的基因组贡献了最特殊的的SNV(图6d)。来自非洲的基因组产生的变异平均是欧洲或北美基因组的三倍多。成对SNV分析也支持了较高的跨大陆SNV密度,特别是来自非洲和欧洲的基因组之间(图6e)。该研究结果表明,大陆之间存在着较高的菌株变异性,还有相当程度的多样性有待发现,特别是在非洲等数量量不足的地区。

图5 肠道微生物组的泛基因组多样性模式。a 不同门分类中,种内泛基因组大小和基因组数量的相关性,阴影代表95%的置信区间;b 不同物种的核心基因组所占比例(左图),水平虚线代表中位数,右图代表所在核心基因组特定比例下物种的数量以及物种组成;c 在不同数据库中,核心基因组和辅助基因组的覆盖度;d 比较核心基因和辅助基因在不同功能分类中的数量差异。

图6 种内单核苷酸变异分析。a SNVs的数量随着物种数的增加而增加的稀释曲线;b 不同培养状态的物种中,基因组中SNVs的数量;c 不同培养状态的物种中,基因组中每kb序列中SNVs的数量;d 左图:由每个大陆的基因组数标准化的专属SNV的数量,右图:每个大陆基因组中唯一检测到的SNV数量;e 以欧洲起源的基因组模板,其他五大洲起源的基因组每kb序列中SNV的数量。

7. 资源共享

UHGG和UHGP目录整理在MGnify网站上,每个物种集群的摘要统计数据和它们的功能注释可以交互地探索和下载。

该研究计划定期更新资源(大约每6-12个月),因为有新的基因组产生并公开。MAGs将从ENA收集。基因组将以新物种的形式添加,或以更优质的基因组取代的方式添加。我们将采用一个版本控制系统,在随后的更新之后,以前的数据库仍然可以访问,以确保证现性。

评论

该研究提供了人体肠道微生物组统一的基因组及其蛋白数据集,涵盖超过4,644个物种的200,000个基因组,以及相应的1.71亿条蛋白序列。并且所提供的71%的物种基因组目前所对应的微生物是未得到纯培养的。通过超过1000个宏基因组数据的实战分析证明:与目前的通用数据库相比,所提供数据集具有较高的物种信息和基因功能覆盖度,对今后人体肠道微生物组的物种和功能注释提供了可选择的数据库。


你可能还喜欢

  1. 2019年度回顾 | 微生态环境微生物类微文大合辑

  2. 2019年度回顾 | 微生态人体/动物微生物类微文大合辑

  3. 2019年度回顾 | 技术贴合辑大放送


(0)

相关推荐