科研 | Scientific Data:高覆盖率16S和鸟枪法测序检测肠道微生物多样性

编译:Mushroom,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

肠道微生物在人类健康和疾病中发挥重要作用,但是利用下一代测序研究肠道微生物的复杂结构和功能还有很多问题尚未解决。本研究采集9名COLSCREEN研究参与者的横断面结肠活检和粪便样本,并使用Illumina双端鸟枪(用于粪便样本)和IonTorrent 16S(用于成对粪便和结肠活检)技术对其进行高覆盖率测序。每个样本的宏基因组包含4700万至9200万个reads,靶向测序覆盖了每个样本中超过300 K reads 16S基因的7个高变区。本研究数据采用现有最新生物信息学算法的宏基因组分析代码,分析结果将为设计全面的微生物数据提供有意义的参考,并为进一步测试肠道微生物多态性提供技术保障。

论文ID

原名:Gut microbiome diversity detected by high-coverage 16S and shotgun sequencing of paired stool and colon sample

译名:高覆盖率16S和鸟枪法测序检测肠道微生物多样性

期刊:Scientific Data

IF:5.929

发表时间:2020.03

通信作者:VictBor Moreno 1,2,3,4 & Ville Nikolai Pimenoff 1,2,3,5

通信作者单位:1.西班牙巴塞罗那加泰罗尼亚肿瘤研究所(ICO)。2.西班牙巴塞罗那bellvige生物医学研究所(IDIBELL)。3.西班牙巴塞罗那联合生物医学研究的流行病学和公共卫生(CI BERESP)。4.西班牙巴塞罗那大学医学院临床科学系5.芬兰国家癌症中心(FICAN-MID)和瑞典斯德哥尔摩的卡罗林斯卡学院。

实验设计

分别采集9名COLSCREEN研究参与者(3名无病变患者,3名中度风险病变患者(3-4个直径10毫米的低度发育不良的小管状腺瘤或≥1个直径10-19mm的腺瘤)和高危病变患者(≥5个腺瘤或≥1个直径≥20 mm的腺瘤))的粪便样品和结肠组织样品,被测试者的相关信息见表1和表2。提取DNA,对粪便样本进行Illumina双端鸟枪测序,对相应的粪便和结肠组织进行IonTorrent16S测序。去除来自人类基因组的reads后进行生物信息学分析,使用分类学分类、功能分类和从头组装三种不同的方法对鸟枪测序数据进行分析,并且对高质量鸟枪序列进行下采样,以分析当到达较低的测序深度时观察到的α多样性的损失。对靶向的16S测序reads识别可变区,而后分别对每个16S可变区域进行降噪和分类分析。最后对所得试验结果进行验证。

表1临床描述性统计分析。结直肠癌风险因素信息。以前吸烟者在采样的前12个月并未吸烟的人。采样前12个月的非甾体类抗炎药(NSAIDs)使用者。
表2 样本的临床特征和DNA数据量。HRA =高危病变腺瘤;IRA =中度风险腺瘤病变;neg =健康的结肠。

结果

1. 鸟枪法测序数据分类和功能分析

经过质控后(表3),使用三个不同的分类器(Kraken2(k-mer匹配算法)、MetaPhlan2(标记基因映射算法)和Kaiju(读取映射算法))对经过预处理的配对末端鸟枪序列进行分类。使用Kraken2对包含所有RefSeq细菌和古细菌基因组(建于2019年5月)的参考数据库检索,并结合Bracken重新估计从物种到门分类水平上的细菌丰度。MetaPhlAn2对细胞标志物数据库检索。Kaiju对Progenomes数据库(建于2019年2月)检索。图1a显示了细菌科水平的相应分类学概况。

使用HUMAnN2对序列进行功能注释,获得基因家族(UniRef90)、功能组(KEGG 直系同源组)和代谢途径(MetaCyc)的特征。

表3 质量控制。数字表示原始微生物和通过质量控制的双端reads的数量,以及由于重复、质量和adapter修整而去除的reads的百分比。
图1 细菌科水平样本分类学分类。(a)使用三种不同的分类算法对鸟枪数据样本进行分类。(b)利用DADA2和IdTaxa对16S序列进行分类,按区域和源物质进行拆分。

2.  鸟枪法测序数据从头组装

使用metaSPADES组装高质量的宏基因组reads,并使用metaBAT将其分类为宏基因组组装基因组(MAGs)。MAGs的质量如下所示:完整性> 90%,污染<5%,重叠群数<300%,N50> 20,000。从9个样本的宏基因组中组装得到112个高质量MAGs,并使用PhyloPhlAn2进行种水平的分类。表4列出了9个样本中至少2个样本共有的组装物种。

表4 宏基因组组装基因组(MAGs)。至少存在于两个样本的高质量的MAGs(见观察次数)。

3.  生成较低覆盖范围的模拟样本

通过计算机使用BBTools在15 M、10 M、5 M、2.5 M、1 M、500 K、100 K和50 K的read对覆盖率下创建5个模拟样本。使用Kraken2和HUMAnN2对其进行分类。根据分类结果,在品种,属和门类水平以及UniRef90,KO和MetaCyc途径水平上计算了香农指数的α多样性谱。

4.   按区域划分16S样本

通过Python程序识别每个read中存在的可变区域并将FASTQ文件中属于同一区域的序列分层为新的子文件。

将16S保守区定位于大肠杆菌str.K-12亚群MG1655 16S参考基因(SILVA v.132 Nr99identifier U00096.4035531.4037072)以及相应的可变区位置。将V5和V7区截短后与大肠杆菌序列匹配。然后通过mapping将每个read分配到相应的可变区域。样本覆盖区域分析结果显示,V3区分布最为广泛,其次是V4,V2,V6-V7和V7-V8(表5)。

表5 16S 数据。样本中每个区域相应的16Sreads的百分比。

5. 16S数据去噪和分类学分箱

按照标准DADA2 pipeline对16S序列去噪并进行调整,以适合我们的单端读取数据。此分析将跨越不同区域的reads作为不同的输入文件引入pipeline中。表6显示DADA2 pipeline质量评估情况。图1b显示按地区和来源分类的细菌科水平的分类学分配。

6.  统计分析

使用成分数据分析方法对细菌丰度数据进行统计分析。使用CodaSeq和zCompositions工具包中的codaSeq.filter,cmultRepl和codaSeq.clr函数将去除低丰度特征并加入伪计数后的分类类群的计数矩阵进行中心对数比(centrallog ratio, CLR)转换。使用R软件中的prcomp函数将中心对数比生成主成分分析双标图。

7.  数据记录

本研究所得的原始序列数据已保存到欧洲核苷酸档案库(ENA)中。粪便宏基因组序列可通过登录号PRJEB33098获得。粪便16S序列可通过登录号PRJEB33416获得,组织16S序列可通过登录号PRJEB33417获得。在提交给ENA之前,已经从鸟枪数据中完全删除了人类基因组序列。

8. 技术验证

通过使用DADA2的assignSpecies函数在SILVA数据库中搜索明确的全序列与16S reads进行比对(132版,基因代码在表7中显示)来验证16S可变区分配结果。结果显示,16S reads均一致地映射在16S基因内的区域中,与pipeline分配的可变区一致,即每个reads都被分配在表7中显示的起始位点和结束位点之间,并且与特定微生物物种基因组的预测16S可变区域相对应。这些结果表明,本研究的16S区域分配的读取水平是可靠的。

表7 对16S数据进行一致性验证。16Sreads所覆盖的区域与SILVA数据库可以精确匹配。第一列表示pipeline调用的区域,第三和第四列显示SILVA数据库中精确匹配的位置。表明了本研究的pipeline所调用的可变区域与它在16S基因上所占据的预期位置之间的一致性。SILVA数据库识别:脆弱拟杆菌:FQ312004.3243020.3244552;普通类杆菌:CP000139.2183533.2185042;核梭菌:AE009951.530422.531923;R.gnavus:AZJF01000012.178214.179732。
表8 生物信息学工具的软件版本和相关资源。

图1a显示三种分类学方法定义的微生物组分类结构。结果表明三种分类学方法均可得到样本共有的核心微生物组结构。但是,使用不同方法得到的微生物相对丰度有特定偏差。为了估计微生物群落结构的差异,对CLR转换后的数据进行主成分分析,图2b显示了清晰的分类学分类方法聚类。然而,Kraken2和Kaiju在细菌科水平的分类以相同的顺序沿着第二组件聚集样本,这可能反映了分类的一致性。

图1b显示两个可变区域和源材料(粪便或组织)的细菌分类群分布情况。图2a显示当分析CLR转换后的生物分类谱时,样品主要由源物质聚类。并且,主成分分析显示V7-V8区与其它可变区域的差异最大(图2a)。

总之,同一粪便样品使用16S和鸟枪分析得出的群落结构存在明显差异(图2c)。但样品以相同的顺序显示在第二个组件上表明所检测到的微生物特征具有一致性。

图2 分类。对中心对数比转换后细菌科级分类进行主成分分析。(a)每个样本的16S数据按区域和源物质分层。(b)使用Kraken2、Kaiju和MetaPhlAn2对鸟枪数据进行分类。(c)来自粪便的仅包括V4区域的16S数据和使用Kraken2进行分类的鸟枪数据。

最后,我们对原始的高质量reads进行下采样以降低覆盖率。通过在不同的分类和功能水平上计算α多样性来估计捕获样品中可观察到的微生物多样性所必需的测序深度(图3)。

α多样性概况显示,随着测序覆盖率的降低,多样性逐渐下降。在具有较高多样性的特征中(特别是物种水平或基因家族(UniRef90)),覆盖率下降更为明显。总之,在种水平上,分析捕获样本中的分类多样性至少要低至100万读对的测序覆盖。本研究证明来自9个参与者的高覆盖率数据集具有足够的测序深度,可以捕获样品中存在的大多数已知细菌分类群和功能组。

图3α多样性。分别对每个级别创建的5个随机样本进行Kraken2分析不同分类水平(种、属、门、顶行)和HUMAnN2分析功能水平(基因家族:UniRef90,功能组:KEGG直系同源组,代谢途径:MetaCyc,底行),并计算香农指数。

结论

1.        本研究所得数据集具有捕获样品中的大多数细菌分类群和功能组的测序深度,是可靠的。

2.        同一样品使用16S和鸟枪分析得出的群落结构存在明显差异但微生物特征具有一致性。

3.        不同的分类学方法均可得到样本共有的核心微生物组结构,但分析得到的微生物相对丰度有特定偏差。

4.        α多样性随着测序覆盖率的降低逐渐下降,且在多样性较高的特征中下降的更为明显。

评论

高通量测序可以通过无培养方式研究细菌多样性和丰度的变化,大大增强了我们对人类微生物组的了解。16S小亚基核糖体基因在细菌和古生菌中高度保守,因此被广泛用作评价微生物系统发育的标记基因。通常16S rRNA高变区的扩增可以检测到样品中精确到属水平,甚至种水平的微生物群落。鸟枪宏基因组学不仅可以在物种水平上进行分类分析,还可以对特定物种进行菌株水平的检测,以及宏基因组的功能表征和从头组装,但它价格比16S 测序昂贵。
本研究结合16S 测序和鸟枪测序表征了9名参与者的粪便和结肠组织样本的肠道微生物组特征。结果显示虽然两种样品类型的完整微生物组的不同测序方法和分类算法之间的高度一致性,但还存在明显的偏差,具体取决于样品,方法,基因组靶标和测序数据的深度。本研究意义在于分析获得的带注释的高质量肠道微生物组数据集可以为将来设计全面的微生物组分析提供有用的见识,并为测试其分析生物信息学pipeline的研究人员提供相关信息。


你可能还喜欢

  1. 2019年度回顾 | 微生态环境微生物类微文大合辑

  2. 2019年度回顾 | 微生态人体/动物微生物类微文大合辑

  3. 2019年度回顾 | 技术贴合辑大放送



(0)

相关推荐