方法革新:8个宏基因组分析新工具 | 热心肠日报

今天是第1766期日报。

Nature子刊:教你使用 CAMI 基准测试工具包评估宏基因组学软件

Nature Protocols[IF:10.419]

① 为发展评估宏基因组数据处理技术,采用基准评估必不可少;② 文章综述了”宏基因组解释的关键评估(CAMI)”计划的基准评测工作流程和操作教程;③ CAMI旨在确定微生物组研究基准的最佳做法,包括确定基准数据集、性能指标、基准测试程序和评估程序,且确保可重复性,从而为宏基因组组装、分箱、分析结果提供公正的性能评估;④ 为便于开发人员,作者结合代码演示了CAMI工具包基准测试的使用方法,分析了不同研究软件的结果。

Tutorial: assessing metagenomics software with the CAMI benchmarking toolkit
03-01, doi: 10.1038/s41596-020-00480-3

【主编评语】计算方法是菌群研究的关键,获得定量且无偏的性能评估对方法开发者和应用研究者很重要。为了在方法之间进行有意义的比较,确定最佳实践和常用示例数据并减少基准测试的计算成本,有必要使用标准化的数据集、过程和度量标准进行评估。在本教程中,作者描述了由较大的研究人员群体共同确定的计算宏组学基准测试中的新兴标准。作者解释了最相关的评估指标,用于评估宏基因组装配/组装,分箱和分析结果,并提供有关如何生成它们的分步说明。本教程将为同行提供参考,并有助于在菌群研究中提供信息丰富且可重复的基准测试。(@刘永鑫-中科院-宏基因组)

VirSorter2:病毒组鉴定软件升级版发布

Microbiome[IF:11.607]

① 目前针对病毒序列识别的计算方法有两种,一种是综合考虑基因含量和基因组结构特征来识别病毒序列,另外一种是根据已知病毒中序列的特征,使用机器学习识别病毒序列;② VirSorter2采用模块化设计,利用自定义分类器中的基因组数据库来提高病毒序列检测的准确性,并且能识别一些代表性不足的病毒组;③ 与其他病毒识别软件相比,VirSorter2在病毒识别方面表现出较高的准确性;④ VirSorter2能够一定程度地减少真核基因组和质粒的错误识别。

VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses
02-01, doi: 10.1186/s40168-020-00990-y

【主编评语】本文介绍了VirSorter2,这是一种DNA和RNA病毒识别工具,可利用自定义自动分类器集合中的基因组信息数据库更新来提高病毒序列检测的准确性和范围。通过多分类器和模块化设计,VirSorter2展示了主要病毒组之间更高的整体准确性,并将提高我们对各种生态系统中的病毒进化,多样性和病毒-微生物相互作用的了解。VirSorter2可以对测序数据中的所有类型的病毒进行可靠的检测并可以在大规模数据集中轻松检测到新的病毒多样性。这将使研究人员能够调查所有病毒在地球生物群系中所扮演的角色,并更好地了解这些病毒是如何限制基本微生物过程的。VirSorter2的源代码可以免费获得(https://bitbucket.org/MAVERICLab/virsorter2)。(@刘永鑫-中科院-宏基因组)

EukDetect:基于宏基因组测序准确灵敏地检测真核微生物

Microbiome[IF:11.607]

① EukDetect 是一款使用通用标记基因准确识别真核微生物的软件;② 其数据库整合了3713个真核生物(包括596个原生生物、2010个真菌、146个非链霉古生菌和961个非脊椎后生动物),得到241个保守基因家族的521,824个通用标记基因;③ 该软件具有广泛的真核微生物分类性能,在低丰度和近缘物种上表现良好,并对基因组中的细菌序列污染具有鲁棒性;④ 此软件的标记基因方法大幅提升了在宿主及环境中,与疾病相关的真核微生物的检测能力。

Accurate and sensitive detection of microbial eukaryotes from whole metagenome shotgun sequencing
03-03, doi: 10.1186/s40168-021-01015-y

【主编评语】在包括宿主相关菌群在内的自然微生物系统中,真核微生物会随着细菌和古细菌一起被发现。尽管真核微生物对这些群落至关重要,但使用鸟枪法测序技术研究它们仍具有挑战性,因此经常被排除在外。本文介绍了EukDetect,一种生物信息学方法,可在鸟枪法宏基因组测序数据中识别真核生物。EukDetect具有广泛的真核微生物分类学范围,在低丰度和近缘种上表现良好,并且对真核生物基因组中的细菌污染具有抵抗力。EukDetect提供了一种自动可靠的方法来表征来自各种菌群的鸟枪测序数据集中的真核生物。作者证明了它使使用标准鸟枪测序分析时会被假阳性所遗漏或掩盖的发现成为可能。EukDetect将极大地促进我们对真核微生物如何贡献于菌群的理解。(@刘永鑫-中科院-宏基因组)

使用PathoFact鉴定宏基因组中毒力因子和耐药基因

Microbiome[IF:11.607]

① PathoFact是一种能够高度准确和特异性对毒力因子、细菌毒素和抗菌素耐药基因预测的工具;② 该软件用python编写,snakemake封装流程,可实现工作流程化处理、并行性以及中断后恢复处理的任务;③ 毒力因子数据库纳入VFDB和必需基因数据库,使用随机森林训练模型;毒素数据库由毒素和毒素目标数据库(T3DB)构建;抗菌素耐药基因由CARD、ARDB和UNIPROT数据库构建;④ PathoFact是目前唯一将以上三个功能结合且灵活又高性能的预测软件。

PathoFact: a pipeline for the prediction of virulence factors and antimicrobial resistance genes in metagenomic data
02-17, doi: 10.1186/s40168-020-00993-9

【主编评语】PathoFact是一个能够高度准确地(分别为0.921、0.832和0.979)和特异性(0.957、0.989和0.994)对毒力因子、细菌毒素和耐药基因进行预测的工具。该工具结合了这些致病因子的预测和可移动遗传元件的识别。通过考虑相关基因的基因组背景,这为分析提供了进一步的深度。此外,PathoFact的毒力因子,毒素和抗菌素耐药基因模块可以独立应用,从而使其成为一个灵活而通用的工具。在预测毒力因子和毒素基因方面,PathoFact优于所有现有的工作流程。在预测抗菌素耐药性方面,它的性能可与一套流程相媲美,而优于其他。PathoFact及其模型和数据库可在https://pathofact.lcsb.uni.lu上免费获得。(@刘永鑫-中科院-宏基因组)

GutBalance:一个基于人类肠道菌群进行疾病预测和解决了组成问题的生物标志物发现的服务器

Briefings in Bioinformatics[IF:8.99]

① 如何最好地对高维菌群数据进行分类仍然是一个悬而未决的问题,部分原因是难以正确处理组成性数据;② 通过将DBA远端平衡用作基于菌群的监督疾病分类的特征,作者从GMrepo数据库中开发了一个基于平衡的模型存储库。存储库中的疾病模型可以预测新提交的样本的疾病风险;③ 作者强调了平衡-疾病关联的概念,并开发了GBDAD。通过将平衡-疾病关联与MicroPhenoDB中已证明的微生物-疾病关联联系起来,可以可靠地推断出新的物种-疾病关联。

GutBalance: a server for the human gut microbiome-based disease prediction and biomarker discovery with compositionality addressed
01-30, doi: 10.1093/bib/bbaa436

【主编评语】组成变换属于菌群数据的监督学习,是决定疾病分类器性能和可靠性的关键步骤。人们重视远端判别平衡分析(DBA)方法的出色性能,该方法在处理高维菌群数据分类时选择细菌对和三个的远端平衡。通过将该方法应用于GMrepo数据库中所有疾病表型的物种水平丰度,作者建立了基于平衡的模型库,用于人类肠道菌群相关疾病的分类。该模型存储库支持对新样本的疾病风险进行预测。更重要的是,作者强调了平衡-疾病关联的概念,而不是传统的微生物-疾病关联,并建立了人类肠道平衡-疾病关联数据库(GBDAD)。模型存储库和GBDAD数据库部署在GutBalance服务器上,该服务器支持对疾病模型、与疾病相关的平衡和感兴趣的疾病相关物种进行交互可视化和系统的询问。并发现基于平衡的物种-疾病关联性将加速胃肠道微生态学研究和临床试验中新的微生物-疾病关联性假说的产生。(@刘永鑫-中科院-宏基因组)

通过生成对抗网络模型进行微生物组模拟

GigaScience[IF:5.993]

① 模拟真实的菌群数据具有挑战性,因为很难使用明确的统计模型对它们的相关结构进行建模;② 本研究设计了一个新颖的模拟框架,称为MB-GAN,它使用了生成对抗网络(GAN)并利用深度学习群落的方法;③ MB-GAN可以自动从给定的微生物丰度中学习并计算与它们无法区分的模拟丰度;④ MB-GAN避免了明确的统计建模假设,它只需要真实的数据集作为输入;⑤ 与传统的GAN不同,MB-GAN易于应用并且可以有效地收敛。

MB-GAN: Microbiome Simulation via Generative Adversarial Network
02-05, doi: 10.1093/gigascience/giab005

【主编评语】在本文介绍了一个新颖的菌群模拟模型MB-GAN,并表明它可以模拟高保真微生物组丰度。作者通过修改鉴别器网络,从而纳入基于菌群多样性的测量。与原始GAN框架相比,此算法可以快速、稳健地收敛。因此,可以在无需明确建模的情况下轻松地基于一组输入的微生物组丰度来模拟新的数据集。在真实的数据研究中,作者证明了模拟的菌群丰度具有相似的数据特征,包括一阶(样本水平属性,如稀疏性和多样性)和二阶特性(分类群间的相关性)。总之,MB-GAN通过为真实数据提供高保真度的模拟数据,可以评估各种类型的菌群研究。(@刘永鑫-中科院-宏基因组)

R包microeco:微生物组扩增子数据统计和可视化

FEMS Microbiology Ecology[IF:3.675]

① 当前的microeco版本共有10个模块,各个模块根据经验封装了一系列重要的函数来快速方便有针对性的进行分析;② 使用microeco包最基本的操作是构建microtable对象,构建此对象与phyloseq包相似,但更为简洁,修改也较容易;③ Microeco包目前涵盖了多种常用的分析方法类别,是为了快速发掘数据中的有用信息,同时兼顾到易使用性和简洁性;④ 通过使用microeco包中内置函数可以直接转换microtable对象到phyloseq对象。

microeco: an R package for data mining in microbial community ecology
2020-12-17, doi: 10.1093/femsec/fiaa255

【主编评语】基于高通量测序的群落数据分析分为前期的生物信息学分析和后续的统计分析,后续的分析则更注重于统计方法的使用和结果展示的快速性和灵活性。目前来看,依然缺少全面、简洁、快速的后续分析软件包。本文中提到的R语言包microeco 基于R6 class开发,整合了多种微生物群落生态学中常用的分析方法,归类成每个模块,以方便学习和使用,并研发了多种分析方法,同时提供了详细的教程,软件包已上传至CRAN,建议安装Github的更新版本。安装方法和使用教程等详见Github链接:https://github.com/ChiLiubio/microeco(@刘永鑫-中科院-宏基因组)

青岛大学团队开发菌群16S扩增子功能校正算法Meta-Apo

BMC Genomics[IF:3.594]

① 使用配对的宏基因组(WGS):16S扩增子数据对用作训练集,Meta-Apo算法就可以为大规模的16S扩增子样本生成校正后的功能谱,结果与WGS更加一致;② 通过Meta-Apo校正后,疾病分类的准确性提高到95.12%,同时检测疾病的敏感性也大大提高了;③ Meta-Apo提供了一种跨平台菌群分析策略,可以显著提高状态分类的性能;④ Meta-Apo能够综合16S扩增子测序的较低成本和WGS的较高精确度两方面的优势,使大规模的微生物组研究受益匪浅。

Meta-Apo improves accuracy of 16S-amplicon-based prediction of microbiome function
01-06, doi: 10.1186/s12864-020-07307-1

【主编评语】作者开发了Meta-Apo(Metagenomic Apochromat),这是一种菌群16S扩增子测序的功能校正算法,可以极大地减少甚至消除由于PCR扩增偏好性以及16S rRNA基因-全基因组关联信息的差异从而导致的同一微生物组样本基于16S扩增子的功能谱与WGS产生的结果之间存在偏差,使两种方法得出结论更加一致。另外,Meta-Apo还可以在WGS和16S扩增子样品之间进行跨平台功能比较,可以极大的改善基于16S扩增子的菌群诊断。总而言之,利用Meta-Apo,可以让低成本的16S扩增子测序产生与WGS相近的、可靠的、高分辨率的菌群功能图谱。对于之前和新兴微生物组项目,借助Meta-Apo等新工具,16S扩增子的测序和分析策略将继续为菌群功能研究做贡献。(@刘永鑫-中科院-宏基因组)

中国医科大学附属第一医院:胃癌诊断的潜在生物标志物

Genomics, Proteomics and Bioinformatics[IF:7.051]

① 对30份胃癌组织及30份健康组织进行无标记蛋白组分析,鉴定出537个差异表达蛋白(其中280个在胃癌组织中上调);② sirtuin信号通路、细胞运动(包括肿瘤细胞的组织侵袭)在胃癌组织中显著激活,而氧化磷酸化在胃癌组织中被显著抑制;③ 挑选4个蛋白(ATP5B、ATP5O、NDUFB4、NDUFB8)的组合,在训练集及验证集中区分胃癌及健康对照的AUC分别为0.996及0.886;④ 在独立队列中,基于ELISA及免疫组化组织芯片方法检测的AUC分别为0.778及0.805。

Screening of Potential Biomarkers for Gastric Cancer with Diagnostic Value Using Label-free Global Proteome Analysis
02-17, doi: 10.1016/j.gpb.2020.06.012

【主编评语】中国医科大学附属第一医院的王振宁团队在Genomics, Proteomics and Bioinformatics上发表的一项最新研究,通过无标记蛋白组分析,鉴定出了537个在胃癌组织及健康组织中差异化表达的蛋白。基于随机森林模型挑选其中4个蛋白作为诊断特征,可在不同队列中较准确地区分胃癌及健康对照。(@szx)

感谢本期日报的创作者:黄思思,lzm,Chengkai,刘永鑫-中科院-宏基因组,szx

(0)

相关推荐