科研 | Nature Biotechnology:组装4,941个基因组的瘤胃微生物数据库适用于瘤胃微生物生物学和酶学的研究

编译:MUSHROOM,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

瘤胃具有特殊的功能,能消化分解植物饲料中复杂的多糖。瘤胃微生物基因组编码可以消化反刍动物日粮中的植物的各种酶类。本研究采用一种新的宏基因组工作流程,将来自283头反刍动物的大约6.5万亿个短读和长读序列数据组装获得4,941个瘤胃微生物宏基因组(MAG),这种方法能够组装至少80%的细菌和古生菌基因组,所得的MAG集将reads 的mapping率从15%提高到50-70%。此外,本研究从长读序列数据中组装得到3个完整的瘤胃细菌全染色体,其中2个是未知的。研究者对所得微生物基因组预测并注释了大量的瘤胃蛋白。该研究对于更好地了解瘤胃微生物组的结构和功能有重要参考意义。

论文ID

原名:Compendium of 4,941 rumen metagenome-assembled genomesfor rumen microbiome biology and enzyme discovery

译名:组装4,941个基因组的瘤胃微生物数据库适用于瘤胃微生物生物学和酶学的研究

期刊:Nature Biotechnology

IF:31.864

发表时间:2019.08

通讯作者:米克·沃森

作者单位:英国爱丁堡大学罗斯林研究所

实验设计

结果

1.牛瘤胃微生物的基因组组装

从283头肉牛的瘤胃中提取DNA,测序得到6.5 TB以上的数据,组装质控后得到4,941个MAGs(或RUGs)(完整性≥80%,污染≤10%,RUGs的长度 = 456 kb - 6.6 Mb,N50 = 4.5 kb - 1.37 Mb,每个RUG的tRNA基因数量平均为16.9。)系统进化树(图1)显示:在门水平上,主要由梭菌门和拟杆菌门组成,其次是放线菌门,纤维杆菌门和变形杆菌门;在目和科水平上,主要由瘤胃菌科和毛螺菌组成的梭菌目与变形菌科组成的拟杆菌目组成。

图1 牛瘤胃的4,941个RUGs的系统进化树,包括Hungate数据库的瘤胃基因组。用PhyloPhlAn将蛋白序列连接起来生成树,用GraPhlAn绘制。标签上显示的是只选择不重叠有信息的Hungate基因组的名称(Hungate数据集包括410个瘤胃细菌和古菌)。

所有RUGs的GTDB预测结果显示:有4,763个RUGs与现有基因组的ANI <99%,有3,535个RUGs的ANI <95%,代表其中包含新物种。在所有RUGs中,有144个RUGs被分类为种,1,092个被分类为属,3,188个被分类为科,4,084个被分类为目,4,514被分类为纲,4,801被分类为门。4,941个被归为界。使用1x覆盖的截止值对每个样本中每个RUG的覆盖范围进行统计。结果显示4,863个RUGs存在于不止一只动物中,3,937个RUGs存在于十多只动物中,而225个存在于200多只动物中。所有动物中都有属于普雷沃氏菌属的RUG11026。

2. 组装获得接近完整的单contig变形杆菌基因组

RUG14498(基因组完整性87.91%,污染0%)与UniProt TREMBL中的蛋白质仅有45-60%的氨基酸同源性;与9个ANI均大于99.4%的变形杆菌组装体进行比较,RUG14498与其ANI均大于77.8%;与GenBank未培养细菌匹配最佳;这表明RUG14498是一种高质量,近乎完整的且是全新的变形杆菌属的全基因组。其编码73种CAZy酶,包括42个糖基转移酶和19个糖基水解酶,在碳水化合物的合成和代谢中起作用。

3.瘤胃微生物的新微生物基因组

4,941 个RUGs 与 Hungate 和之前公布的数据比较 (图2), 4,941个 RUGs中有149 个与Hungate蛋白同源性 >95% ,有 271 个蛋白同源性 >90%;4,670个RUGs与Hungate蛋白质同源性< 90%,超过1,100个RUGs与Stewart蛋白质同源性< 70%。许多与公开基因组具有最低蛋白质同源性的RUGs不能在门以上水平分类,一些被简单地归类为未培养细菌。自定义一个包括本研究和另外五个研究所得数据的瘤胃超集数据库,在ANI值为95%时,在种水平上,2,078个仅包含RUGs,是新瘤胃微生物物种。本研究所有RUGs在ANI值为95%时,种水平上发现有2,180个RUGs占估算样本(3,276个RUG)的66.54%。经3个自定义数据库对5个数据集重新分类结果显示,只由本研究所得RUGs组成的数据库效果最好,可以将分类率从15%提高到70%,超过四分之一的样本达到80%或更高的分类率。

图2 RUG数据集与Hungate和发表的数据比较。
a,b,4,941个RUGs与Hungate 的比较 (a) 和我们之前发表的Stewart等人的数据 (b)。黑线表示蛋白质与最接近的匹配百分比(右y轴),蓝点表示每个RUG与比较数据中最接近的匹配之间的距离(k = 100,000,两个不同DNA序列之间的差异)。和预期一样,高蛋白特性与低糖化距离有关,反之亦然。RUGs是根据a和b的平均蛋白质相似度独立排序的。图2b中有一个明显的拐点,大约沿着x轴的一半,在这里蛋白质的相似度下降到90%以下,糖化距离上升,这就证明了我们获得新的数据集具有新颖性。

4. 绵羊甲烷排放量与肠道微生物群落组成及其丰度存在密切联系

之前Shi等人研究发现低甲烷排放(LME)绵羊和高甲烷排放(HME)绵羊之间的微生物群落结构没有显著变化。本研究使用由RefSeq基因组和瘤胃超集组成的自定义kraken数据库,对两组绵羊瘤胃数据集的微生物群落重新分类。结果显示两品种在界水平无差异;在属水平,Sharpea, Kandleria,纤维杆菌,月形单胞菌四个属与LME相关联,Elusimicrobium与HME相关联;在种水平,有340种菌在LME 和HME有显著差异,其中11种双歧杆菌,6种Olsenella以及产琥珀酸丝状杆菌在LME绵羊中丰度高,而9种脱硫弧菌则在HME绵羊中丰度高。在LME和HME绵羊中,大多数古细菌菌株的丰度相似。在HME绵羊中甲烷短杆菌的含量更高,其中比例丰度最高的是RUG12825。为了估计单个菌株的丰度,将reads直接与瘤胃超集进行比对,在错误发现率≤0.05时,LME和HME绵羊之间的1,709个基因组显示出不同比例的丰度。未鉴定的毛螺菌科与LME关联度高,且22株Azabuensis菌株在LME中有较高丰度;HME绵羊还含有大量未鉴定的瘤胃球菌和拟杆菌和多种未鉴定的变形杆菌。

图3 Illumina和nanopore宏基因组组装统计数据的比较。
彩色直方图显示了282个Illumina组装的统计分布,其中突出显示了nanopore组装。a,N50。b,总装长度。c,contig的最长长度。 nanopore 组装的N50值(268 kb)是Illumina组装(4.7 kb)的56倍, Illumina组装通常是长(600 Mb), nanopore组装的长度(178Mb)不是我们组装的最短长度。 nanopore组装的最长长度是装3.8 Mb,是Illumina组装平均长度(479 kb)的7倍,是Illumina组装的最长的单contig的2.74倍。(1.38 Mb;13个来自于99.19%完全未培养的Bacteroidiabacterium RUG14538的contigs中的1个)。直接比较,同一样品仅用Illumina组装的N50为12.2 kb,总长度为247mb,最长的contig为358 kb。

5.全球瘤胃数据更新

通过采集全球范围的742个不同反刍动物个体样品进行16S rRNA测序分析,建立瘤胃的核心微生物群,形成瘤胃微生物数据库,其中包括如普氏菌属、丁酸弧菌属、瘤胃球菌属、未分类的毛螺菌科、疣微菌科、类杆菌、梭状芽孢杆菌和琥珀酸弧菌属等八种主要的微生物群。我们试验测得的数据与八种反刍动物的瘤胃数据库比较发现,许多样本中变形杆菌的比例丰度很高,并且在我们测试的所有样本中都存在一致的蛋白质,因此我们建议将变形杆菌添加到Henderson等人提出的核心细菌瘤胃微生物组中。

6.完整细菌染色体的长读组装

单样本通过三代测序可组装得到3个完整的瘤胃细菌全染色体(nRUG14950, nRUG14951和nRUG14952)。nRUG14950是一个3.8 Mb重叠群,完整性约为98.48%,污染为2.03%,与RUG14032高度相似,与普雷沃氏菌最接近; nRUG14951是一个长度为3.1 Mb的单一重叠群,预测为圆形,完整性和污染分别为98.13%和0.16%,与RUG10160最相似,与月型单胞菌属基因比对结果最接近;nRUG14952是2.5 Mb环状近完整基因组(95.46%),与RUG13141最相似,与毛螺菌科有63%的蛋白质同源性。对3个nRUGs及其紧密相关的3个RUGs进行注释,3个nRUGs分别包含5个,7个和3个nRUGs中富集大量IS家族转座酶蛋白。长读数据可获得更多带注释的直系同源基因簇,表明它们比短读数据具有更完整的功能注释。Illumina和nanopore宏基因组组装统计数据的比较如图3所示。

7.瘤胃微生物蛋白质组学的蛋白质数据库

将来自Hungate数据库的4,941个RUGs和460个公布的瘤胃蛋白质非冗余数据集(1,069万个蛋白质)组合在一起,并将蛋白质集聚为100% RumiRef100(945万个簇),90%RumiRef90(569万个簇)和50%RumiRef50(245万个簇)。将RumiRef100以90%的同源性聚类,获得了624万个蛋白质簇,其中500万个簇包含至少一种RUG蛋白,474万簇仅包含RUG蛋白,367万簇是仅包含RUG蛋白的单子。

将来自RUGs的所有1069万种预测蛋白质与KEGG, Hungate数据库的460个公共基因组,UniRef100,UniRef90和UniRef50进行了比较。这些数据库中命中率最高的平均蛋白质分别为55.88%,63.58%,67.52%,67.25%和59.97%。将RUGs蛋白与CAZy数据库进行比较,预计总共442,917个基因参与碳水化合物的代谢。本研究预测得到的CAZy酶与当前CAZy数据库的相似性显示,八类碳水化合物活性酶均未显示出大于60%的平均蛋白质同源性,表明CAZy数据库不能充分反映瘤胃微生物基因组中编码CAZy酶的多样性(图4)。

图4 .预测碳水化合物代谢蛋白与CAZy数据库的相似度。
GH,糖苷水解酶(n = 235,001);GT,糖基转移酶(n = 120,494);PL,多糖裂解酶(n = 6,834);CE,碳水化合物酯酶(n = 55,523);AA,辅助活动;碳水化合物结合模块(n = 23,928);SLH,s层同源蛋白(n = 150);内聚蛋白,内聚蛋白域(n = 80)。中心线表示中值;方框表示四分位范围;数据向上延伸到最极端的数据点,即不超过盒内四分位范围的1.5倍。

CAZy酶在12个不同门以及一组未知细菌中的分布可见图5。拟杆菌门和厚壁菌门蛋白含量最丰富,5.7%的拟杆菌属蛋白质有CAZy酶活性,但厚壁菌门只有3.2%,验证了它具有高纤维素分解活性。厚壁菌门编码了79种粘着蛋白(共80种)以及101种含SLH域的蛋白质(共149种)。拟杆菌属的1,708个基因组有1,469个具有至少一个PUL,并且总共有15,629个单独的基因座,涉及88,260个蛋白质。每个基因组的PUL数量最高,RUG13980和RUG10279含有PUL数量最多,分别为52和50,并且都是与未培养的普氏原孢菌密切相关的原核生物科。

图5蛋白质的分类和功能分布。
顶部,为12个门和未知菌群的总蛋白数;中间,预测为CAZy酶的蛋白组百分比;底部,八类CAZy酶占总数的比例。

结论

1.采用一种新的宏基因组工作流程,组装出4,941个近乎完整且高质量的基因组,将reads的mapping率提高到70%,其他的可达到45%-55%。

2.发现了四个品种牛样本瘤胃中65%的微生物种类,并且有许多未被发现的种类。

3.在二代测序中组装出一个接近完整的单重叠群基因组。

4.使用包含本研究数据的数据库对LME和HME绵羊数据重新分析,在每个分类水平上均有差异,证明了甲烷的排放与微生物的丰度和种类有密不可分的联系,古生菌与甲烷排放的关系复杂。证明本数据的新颖性和可用性。

5.提供了一个大型非冗余瘤胃微生物蛋白数据库。

6.在三代测序中组装获得3个完整的基因组染色体。

7.获得了40万个代谢基因。

评论

瘤胃微生物群在反刍动物新陈代谢和营养消化吸收过程中扮演着至关重要的角色,但大多数微生物末被培养,获得准确菌群多态性和组分构成并预测其物种及功能是至关重要的。本文提出一种新的组装工作流程,可获得完整性达到80%以上的细菌和古细菌基因组;组装的数据库可将宏基因组数据reads 的mapping率从15%提高到50-70%,有助于更好地了解瘤胃微生物组的结构和功能。尤为重要的是,如果我们要设计合理的干预措施来控制瘤胃饲料转化或甲烷排放,我们将需要了解微生物群的结构,微生物区系利用的底物,以及微生物区系如何与彼此和反刍动物宿主之间的相互作用关系。


你可能还喜欢

  1. 2019年度回顾 | 微生态环境微生物类微文大合辑

  2. 2019年度回顾 | 微生态人体/动物微生物类微文大合辑

  3. 2019年度回顾 | 技术贴合辑大放送



(0)

相关推荐