科研 | Scientific Data:高覆盖率16S和鸟枪法测序检测肠道微生物多样性
编译:Mushroom,编辑:小菌菌、江舜尧。
原创微文,欢迎转发转载。
肠道微生物在人类健康和疾病中发挥重要作用,但是利用下一代测序研究肠道微生物的复杂结构和功能还有很多问题尚未解决。本研究采集9名COLSCREEN研究参与者的横断面结肠活检和粪便样本,并使用Illumina双端鸟枪(用于粪便样本)和IonTorrent 16S(用于成对粪便和结肠活检)技术对其进行高覆盖率测序。每个样本的宏基因组包含4700万至9200万个reads,靶向测序覆盖了每个样本中超过300 K reads 16S基因的7个高变区。本研究数据采用现有最新生物信息学算法的宏基因组分析代码,分析结果将为设计全面的微生物数据提供有意义的参考,并为进一步测试肠道微生物多态性提供技术保障。
论文ID
原名:Gut microbiome diversity detected by high-coverage 16S and shotgun sequencing of paired stool and colon sample
译名:高覆盖率16S和鸟枪法测序检测肠道微生物多样性
期刊:Scientific Data
IF:5.929
发表时间:2020.03
通信作者:VictBor Moreno 1,2,3,4 & Ville Nikolai Pimenoff 1,2,3,5
通信作者单位:1.西班牙巴塞罗那加泰罗尼亚肿瘤研究所(ICO)。2.西班牙巴塞罗那bellvige生物医学研究所(IDIBELL)。3.西班牙巴塞罗那联合生物医学研究的流行病学和公共卫生(CI BERESP)。4.西班牙巴塞罗那大学医学院临床科学系5.芬兰国家癌症中心(FICAN-MID)和瑞典斯德哥尔摩的卡罗林斯卡学院。
实验设计
分别采集9名COLSCREEN研究参与者(3名无病变患者,3名中度风险病变患者(3-4个直径10毫米的低度发育不良的小管状腺瘤或≥1个直径10-19mm的腺瘤)和高危病变患者(≥5个腺瘤或≥1个直径≥20 mm的腺瘤))的粪便样品和结肠组织样品,被测试者的相关信息见表1和表2。提取DNA,对粪便样本进行Illumina双端鸟枪测序,对相应的粪便和结肠组织进行IonTorrent16S测序。去除来自人类基因组的reads后进行生物信息学分析,使用分类学分类、功能分类和从头组装三种不同的方法对鸟枪测序数据进行分析,并且对高质量鸟枪序列进行下采样,以分析当到达较低的测序深度时观察到的α多样性的损失。对靶向的16S测序reads识别可变区,而后分别对每个16S可变区域进行降噪和分类分析。最后对所得试验结果进行验证。
结果
1. 鸟枪法测序数据分类和功能分析
经过质控后(表3),使用三个不同的分类器(Kraken2(k-mer匹配算法)、MetaPhlan2(标记基因映射算法)和Kaiju(读取映射算法))对经过预处理的配对末端鸟枪序列进行分类。使用Kraken2对包含所有RefSeq细菌和古细菌基因组(建于2019年5月)的参考数据库检索,并结合Bracken重新估计从物种到门分类水平上的细菌丰度。MetaPhlAn2对细胞标志物数据库检索。Kaiju对Progenomes数据库(建于2019年2月)检索。图1a显示了细菌科水平的相应分类学概况。
使用HUMAnN2对序列进行功能注释,获得基因家族(UniRef90)、功能组(KEGG 直系同源组)和代谢途径(MetaCyc)的特征。
2. 鸟枪法测序数据从头组装
使用metaSPADES组装高质量的宏基因组reads,并使用metaBAT将其分类为宏基因组组装基因组(MAGs)。MAGs的质量如下所示:完整性> 90%,污染<5%,重叠群数<300%,N50> 20,000。从9个样本的宏基因组中组装得到112个高质量MAGs,并使用PhyloPhlAn2进行种水平的分类。表4列出了9个样本中至少2个样本共有的组装物种。
表4 宏基因组组装基因组(MAGs)。至少存在于两个样本的高质量的MAGs(见观察次数)。
3. 生成较低覆盖范围的模拟样本
通过计算机使用BBTools在15 M、10 M、5 M、2.5 M、1 M、500 K、100 K和50 K的read对覆盖率下创建5个模拟样本。使用Kraken2和HUMAnN2对其进行分类。根据分类结果,在品种,属和门类水平以及UniRef90,KO和MetaCyc途径水平上计算了香农指数的α多样性谱。
4. 按区域划分16S样本
通过Python程序识别每个read中存在的可变区域并将FASTQ文件中属于同一区域的序列分层为新的子文件。
将16S保守区定位于大肠杆菌str.K-12亚群MG1655 16S参考基因(SILVA v.132 Nr99identifier U00096.4035531.4037072)以及相应的可变区位置。将V5和V7区截短后与大肠杆菌序列匹配。然后通过mapping将每个read分配到相应的可变区域。样本覆盖区域分析结果显示,V3区分布最为广泛,其次是V4,V2,V6-V7和V7-V8(表5)。
5. 16S数据去噪和分类学分箱
按照标准DADA2 pipeline对16S序列去噪并进行调整,以适合我们的单端读取数据。此分析将跨越不同区域的reads作为不同的输入文件引入pipeline中。表6显示DADA2 pipeline质量评估情况。图1b显示按地区和来源分类的细菌科水平的分类学分配。
6. 统计分析
使用成分数据分析方法对细菌丰度数据进行统计分析。使用CodaSeq和zCompositions工具包中的codaSeq.filter,cmultRepl和codaSeq.clr函数将去除低丰度特征并加入伪计数后的分类类群的计数矩阵进行中心对数比(centrallog ratio, CLR)转换。使用R软件中的prcomp函数将中心对数比生成主成分分析双标图。
7. 数据记录
本研究所得的原始序列数据已保存到欧洲核苷酸档案库(ENA)中。粪便宏基因组序列可通过登录号PRJEB33098获得。粪便16S序列可通过登录号PRJEB33416获得,组织16S序列可通过登录号PRJEB33417获得。在提交给ENA之前,已经从鸟枪数据中完全删除了人类基因组序列。
8. 技术验证
通过使用DADA2的assignSpecies函数在SILVA数据库中搜索明确的全序列与16S reads进行比对(132版,基因代码在表7中显示)来验证16S可变区分配结果。结果显示,16S reads均一致地映射在16S基因内的区域中,与pipeline分配的可变区一致,即每个reads都被分配在表7中显示的起始位点和结束位点之间,并且与特定微生物物种基因组的预测16S可变区域相对应。这些结果表明,本研究的16S区域分配的读取水平是可靠的。
图1a显示三种分类学方法定义的微生物组分类结构。结果表明三种分类学方法均可得到样本共有的核心微生物组结构。但是,使用不同方法得到的微生物相对丰度有特定偏差。为了估计微生物群落结构的差异,对CLR转换后的数据进行主成分分析,图2b显示了清晰的分类学分类方法聚类。然而,Kraken2和Kaiju在细菌科水平的分类以相同的顺序沿着第二组件聚集样本,这可能反映了分类的一致性。
图1b显示两个可变区域和源材料(粪便或组织)的细菌分类群分布情况。图2a显示当分析CLR转换后的生物分类谱时,样品主要由源物质聚类。并且,主成分分析显示V7-V8区与其它可变区域的差异最大(图2a)。
总之,同一粪便样品使用16S和鸟枪分析得出的群落结构存在明显差异(图2c)。但样品以相同的顺序显示在第二个组件上表明所检测到的微生物特征具有一致性。
最后,我们对原始的高质量reads进行下采样以降低覆盖率。通过在不同的分类和功能水平上计算α多样性来估计捕获样品中可观察到的微生物多样性所必需的测序深度(图3)。
α多样性概况显示,随着测序覆盖率的降低,多样性逐渐下降。在具有较高多样性的特征中(特别是物种水平或基因家族(UniRef90)),覆盖率下降更为明显。总之,在种水平上,分析捕获样本中的分类多样性至少要低至100万读对的测序覆盖。本研究证明来自9个参与者的高覆盖率数据集具有足够的测序深度,可以捕获样品中存在的大多数已知细菌分类群和功能组。
结论
1. 本研究所得数据集具有捕获样品中的大多数细菌分类群和功能组的测序深度,是可靠的。
2. 同一样品使用16S和鸟枪分析得出的群落结构存在明显差异但微生物特征具有一致性。
3. 不同的分类学方法均可得到样本共有的核心微生物组结构,但分析得到的微生物相对丰度有特定偏差。
4. α多样性随着测序覆盖率的降低逐渐下降,且在多样性较高的特征中下降的更为明显。
评论
你可能还喜欢