mSystems:苏晓泉、徐健等发布全球微生物组结构和功能搜索平台2.0
Microbiome Search Engine 2 第二代微生物组搜索引擎:全球微生物组结构和功能搜索的平台
Microbiome Search Engine 2: a Platform for Taxonomic and Functional Search of Global Microbiomes on the Whole Microbiome Level
mSystems [6.633]
原文链接:https://doi.org/10.1128/mSystems.00943-20
第一作者:Gongchao Jing, Lu Liu
通讯作者:Jian Xu(徐健), Xiaoquan Su(苏晓泉)
主要单位:青岛大学计算机科学技术学院,中国科学院青岛生物能源与过程研究所单细胞中心
摘要
来自不同环境的宏基因组数据集的数量正在迅速增长。随之而来的问题也不断涌现,例如如何快速的访问某一数据集,以及如何快速的通过对比发现新微生物群落与现有微生物群落之间的关联等。Microbiome Search Engine 2(MSE 2)是第二代的微生物组搜索引擎,为解决以上类型的问题提供良好的解决方案。MSE 2可以根据微生物组整体的物种结构或功能,在全球已有的微生物组数据集中搜索高度匹配的样本。MSE 2由以下三部分组成:(i)不断更新的微生物组数据库。该数据库目前包含来自于798项研究的250,000多个宏基因组和16S rRNA扩增子样本,每一个样本的测序数据和元数据都进行了统一化处理;(ii)增强的搜索引擎。实时级快速搜索,能够在0.5秒内,从整个数据库中搜索到与给定的微生物组在整体组成或功能上最相似的样本;(iii)基于Web的图形界面。用户可通过http://mse.ac.cn免费访问MSE 2。该网站提供了简单易用的图形界面,方便用户快速上手样本搜索、数据浏览等操作,同时也为自定义的搜索提供了教程。如果用户想对自有的微生物组数据集来构建数据库并进行搜索,我们在GitHub (https://github.com/qibebt-bioinfo/meta-storms)上也提供了MSE 2搜索引擎的内核程序。
关键词
扩增子(amplicon),宏基因组(metagenome),微生物组(microbiome),在线服务(online service),搜索引擎(search engine)
前言
宏基因组学能够建立起微生物组与周围环境之间的动态关联,已被广泛应用于探索不同环境中的微生物群落,比如环境状况的改变 [1,2],疾病发展 [3-7],药物反应 [8,9]等。随着取样策略和测序技术的快速发展,海量的微生物组数据集正在不断产生,包括16S rRNA基因扩增子测序数据和鸟枪法宏基因组测序(shotgun whole-genome sequencing, WGS)数据。这些数据集既来自于大型的研究项目例如Human Microbiome Project [10]、Earth Microbiome Project [11]、American Gut Project [12], 以及Tara Oceans [13],也来自于小型的研究项目甚至个人。这些数据大都存储在通用的DNA序列存储库(例如NCBI SRA [14])或微生物组特异性数据库(例如MG-RAST [15]和EBI Metagenomics [16])中。为了有效的对这些数据进行大规模的数据挖掘,目前已经有了几款使用统一序列处理和标准操作流程(SOP) [17]的分析管理平台,例如Qiita [18],gcMeta [19]和GMrepo [20]等。这些工具通常都提供基于Taxonomy分类单元(例如物种名称)、序列片段甚至是类似于结构化查询语言(SQL)的元数据查询。但是,当新的微生物组产生后,仍然不能根据其整体尺度上物种或者功能组成的相似性,从现有数据库中搜索到高度相似的匹配样本。为了填补这一领域的空缺,前期我们开发了微生物组搜索引擎Microbiome Search Engine(MSE)[21],并实现了一种基于菌群大数据搜索的多疾病检测新策略,尤其是在处理多队列数据、多测序平台数据和抵抗污染物的方面表现出了显著的优势 [22]。但是,MSE也有它的局限性,即仅支持16s rRNA扩增子测序数据,因此MSE只能针对扩增子OTU(Operational Taxonomy Unit)的相似性进行搜索 [21]。
Microbiome Search Engine 2(http://mse.ac.cn)是第二代微生物组搜索引擎。它突破了以上的限制,不仅同时支持16S rRNA扩增子测序数据和鸟枪法宏基因组测序数据作为搜索输入(图1a),而且在“物种组成”相似性基础上,增加了根据微生物组“功能”相似性的搜索。MSE 2包括以下三个主要部分(图1b):
(i)不断更新的微生物组数据库。该数据库目前包含来自于798项研究的250,000多个WGS宏基因组和16S rRNA扩增子样本,每一个样本的测序数据和元数据都进行了统一化处理;
(ii)增强的搜索引擎。实时级快速搜索,能够在0.5秒内,从整个数据库中搜索到与给定的微生物组在整体组成或功能上最相似的样本;
(iii)基于Web的图形界面。用户可通过http://mse.ac.cn免费访问MSE 2。该网站提供了简单易用的图形界面,方便用户快速上手样本搜索、数据浏览等操作,同时也为自定义的搜索提供了教程。
结果
微生物组数据库
(i)数据的收集和归纳整理。MSE 2的数据主要来自Qiita [18]、EBI [16]、SRA [14]和MG-RAST [15]这几个数据仓储。为了保证微生物组样本之间的技术可比性和可检索性,我们对这些样本进行了统一化的处理:一是在保留原始元数据的基础上,我们从每项研究和以及其样本中选择比较常用的元数据项,将其手工整理成统一的特定格式(表1);二是我们根据序列类型(基于扩增子测序或基于WGS测序;表2),对序列进行了统一的预处理和分析。
(ii)数据库统计数据。通过对数据的预处理和整合后,共有来自798个项目/研究的250,273个微生物组样本收录进了MSE2的数据库,其中鸟枪法宏基因组测序样本有14,957个,16S rRNA扩增子测序样本共有235,334个。从采样源分布来看(图2),人体菌群样本最多(共占52.8%,其中:肠道,34.2%;皮肤,9.1%;口腔,6.4%,等),接下来依次是来自动物(23.7%)、土壤(6.4%)、室内环境(5.7%)和海洋环境(2.7%)。
(iii)数据库的组织和管理。所有微生物组样本被组织成两个维度(图3)。对于基于web的数据浏览(参考下面的“数据浏览和下载”部分),样本是按照其所属的研究项目进行组织的,可以通过各种元数据(如栖息地、序列类型、年份等)进行选择和过滤。对于基于微生物组结构或功能相似性的搜索,样品会根据多种特征的组合(例如,OTU,物种,或KO(KEGG Orthology)功能注释)进行组织,以进行索引和搜索(详情请参阅下面的“增强的微生物组搜索引擎”部分)。
增强的微生物组搜索引擎
(i)全微生物组水平的搜索。MSE 2的搜索引擎内核由C++编写,并使用OpenMP技术实现了并行计算和优化。每次搜索,MSE 2都会检索整个微生物组数据库,以找到结构或功能相似性最高的最佳匹配样品。搜索结果包含匹配项的物种组成或功能概况,匹配项与搜索使用的样本的相似程度及元数据信息(请参见“搜索及结果展示”的部分以了解更多详细信息)。与先前版本MSE [21]相比,MSE 2除了支持基于16S rRNA OTU,还增加了基于物种名称和基于代谢功能(KO)的搜索(图4a)。
(ii)搜索速度和任务调度。得益于两级索引的搜索策略(图4b),MSE2的搜索速度要比穷举搜索快1至2个数量级。为了测试MSE 2的索引效率和搜索速度,我们对整个数据库执行了基于OTU、基于物种和基于功能的搜索,并将搜索时间与禁用索引的穷举搜索(穷举搜索仅用于内部评估,未在MSE 2的线上服务中提供)进行比较。每个过程重复10次,每一次仅对搜索耗时进行记录和比较(不包括数据上传时间,可视化时间和Web页面加载时间,以避免由于系统和网络延迟引起的潜在偏差)。结果显示,对于基于OTU,基于物种和基于功能(KO)的搜索,两级索引策略分别将搜索速度分别提高了193倍、15倍和605倍(图4c和表3)。针对超过250,000个样本的全微生物组级搜索的实时响应在0.5 s之内。另外,在线搜索服务遵循基于队列的任务调度实现的“先到先服务”的原则,从而有效地利用了计算资源。
基于web的图形化入口
(i)基于Web的用户界面。MSE2的网址是http://mse.ac.cn,可通过任何Web浏览器免费访问。该网站的后台程序使用PHP和MySQL编写,并部署在Linux服务器上,前端的web程序提供了一个简单易用的图形界面(图5),用于搜索,数据浏览以及数据的上传和下载。用户可以通过网站上的教程来学习如何调整参数,以实现自定义搜索功能和结果展示。网站的页面上也会定期发布数据库更新,系统维护和其他相关信息的通知。用户还可以在帮助页上提交问题或错误信息,我们将通过电子邮件的方式进行回复。
(ii)搜索及结果展示。MSE 2接受微生物组样本的OTU、物种或KO功能作为搜索输入。因此,搜索之前需要将测序序列进行预处理,使之具有与数据库样本相同的形式。表2列出了推荐的用于每种序列类型的序列处理软件,详细的分析方法可通过在线平台“搜索”或“帮助”页面获得。搜索的第一步,用户首先要根据搜索输入的类型从“按OTU搜索”(by OTU),“按物种搜索”(by species)和“按功能搜索”(by function)中进行选择(图5b)。 然后,输入数据可以以文本文件的形式上传,也可以直接粘贴到网页的文本框中。用户还可以指定其他参数,例如最大匹配数(默认为10)和最低相似度(默认为0.6)。在结果页面(图5c)中,列出了数据库中与输入的样本最相似的样本,其中包含数据库样本ID,采样环境和相似性。对于“按功能搜索”,如果匹配结果是基于16S rRNA序列来预测的功能,搜索结果中也会显示其NSTI(Nearest Sequenced Taxon Index)值,用于表示功能预测的可信度。搜索结果中,每个样品的ID均链接到其详细完整元数据(例如,来源研究,采样地点,序列类型等)的相应页面。输入微生物组和其匹配结果的物种或功能组成会以柱状图或Krona [23]绘制的动态图展示出来,方便查看它们之间的联系和区别。此外,以上所有搜索结果都可以在结果页面上进行打包下载,以方便用户进行后续的meta-analysis和数据挖掘。
(iii)数据浏览和下载。MSE2的网站上提供了两种样本浏览的方式:
A. 按项目/研究浏览。在项目列表页面,样本按照项目进行排列,所有的项目会按照项目ID进行排序。单击项目ID可以进入项目页面,该页面包含每个项目的统一化元数据(例如,研究的标题,出版信息等等)(表1),该项目的完整原始元数据,以及访问该数据原始发布页的链接。
B. 按样本浏览。在样本列表页面中,所有的样本会以列表的形式展示并按照样本号进行排序。用户可以对样本列表进行筛选,目前支持的筛选条件有元数据过滤器,环境,序列类型,采样年份等等。点击样本ID还可以查看由Krona [23]绘制的物种组成动态图。
结论与讨论
本文中,我们介绍了Microbiome Search Engine 2(MSE 2),该平台具有以下两大特性:(i)海量的数据,该数据库包含来自于798项研究的25万个微生物组样本,并且这些样本都进行了统一化的处理;(ii)增强的搜索引擎,能够进行实时级(每次搜索耗时<< span="">0.5 s)快速搜索,搜索条件也从仅支持OTU信息扩展到了支持物种和功能信息。目前已经有研究证明了基于搜索的策略对于定义微生物组样本的新颖性 [21]和跨队列疾病诊断 [22,24]的价值。通过为MES 2和其他相关软件添加功能相似性这一维度,MSE 2可以加速对不断扩大的宏基因组数据空间的大规模数据挖掘。
参考文献
1. Fierer N, Jackson RB. 2006. The diversity and biogeography of soil bacterial communities. Proc Natl Acad Sci U S A 103:626–631. https://doi.org/ 10.1073/pnas.0507535103.
2. Steele JA, Countway PD, Xia L, Vigil PD, Beman JM, Kim DY, Chow CE, Sachdeva R, Jones AC, Schwalbach MS, Rose JM, Hewson I, Patel A, Sun F, Caron DA, Fuhrman JA. 2011. Marine bacterial, archaeal and protistan association networks reveal ecological linkages. ISME J 5:1414–1425. https://doi.org/10.1038/ismej.2011.24.
3. Qin N, Yang F, Li A, Prifti E, Chen Y, Shao L, Guo J, Le Chatelier E, Yao J, Wu L, Zhou J, Ni S, Liu L, Pons N, Batto JM, Kennedy SP, Leonard P, Yuan C, Ding W, Chen Y, Hu X, Zheng B, Qian G, Xu W, Ehrlich SD, Zheng S, Li L. 2014. Alterations of the human gut microbiome in liver cirrhosis. Nature 513:59–64. https://doi.org/10.1038/nature13568.
4. Halfvarson J, Brislawn CJ, Lamendella R, Vazquez-Baeza Y, Walters WA, Bramer LM, D'Amato M, Bonfiglio F, McDonald D, Gonzalez A, McClure EE, Dunklebarger MF, Knight R, Jansson JK. 2017. Dynamics of the human gut microbiome in inflammatory bowel disease. Nat Microbiol 2:17004. https://doi.org/10.1038/nmicrobiol.2017.4.
5. Franzosa EA, Sirota-Madi A, Avila-Pacheco J, Fornelos N, Haiser HJ, Reinker S, Vatanen T, Hall AB, Mallick H, McIver LJ, Sauk JS, Wilson RG, Stevens BW, Scott JM, Pierce K, Deik AA, Bullock K, Imhann F, Porter JA, Zhernakova A, Fu J, Weersma RK, Wijmenga C, Clish CB, Vlamakis H, Huttenhower C, Xavier RJ. 2019. Gut microbiome structure and metabolic activity in inflammatory bowel disease. Nat Microbiol 4:293–305. https:// doi.org/10.1038/s41564-018-0306-4.
6. Zeller G, Tap J, Voigt AY, Sunagawa S, Kultima JR, Costea PI, Amiot A, Bohm J, Brunetti F, Habermann N, Hercog R, Koch M, Luciani A, Mende DR, Schneider MA, Schrotz-King P, Tournigand C, Tran Van Nhieu J, Yamada T, Zimmermann J, Benes V, Kloor M, Ulrich CM, von Knebel Doeberitz M, Sobhani I, Bork P. 2014. Potential of fecal microbiota for early-stage detection of colorectal cancer. Mol Syst Biol 10:766. https:// doi.org/10.15252/msb.20145645.
7. Teng F, Yang F, Huang S, Bo CP, Xu ZZ, Amir A, Knight R, Ling JQ, Xu J. 2015. Prediction of early childhood caries via spatial-temporal variations of oral microbiota. Cell Host Microbe 18:296–306. https://doi.org/10 .1016/j.chom.2015.08.005.
8. Forslund K, Hildebrand F, Nielsen T, Falony G, Le Chatelier E, Sunagawa S, Prifti E, Vieira-Silva S, Gudmundsdottir V, Pedersen HK, Arumugam M, Kristiansen K, Voigt AY, Vestergaard H, Hercog R, Costea PI, Kultima JR, Li J, Jorgensen T, Levenez F, Dore J, MetaHIT consortium, Nielsen HB, Brunak S, Raes J, Hansen T, Wang J, Ehrlich SD, Bork P, Pedersen O. 2015. Disentangling type 2 diabetes and metformin treatment signatures in the human gut microbiota. Nature 528:262–266. https://doi.org/10.1038/ nature15766.
9. Gopalakrishnan V, Spencer CN, Nezi L, Reuben A, Andrews MC, Karpinets TV, Prieto PA, Vicente D, Hoffman K, Wei SC, Cogdill AP, Zhao L, Hudgens CW, Hutchinson DS, Manzo T, Petaccia de Macedo M, Cotechini T, Kumar T, Chen WS, Reddy SM, Szczepaniak Sloane R, Galloway-Pena J, Jiang H, Chen PL, Shpall EJ, Rezvani K, Alousi AM, Chemaly RF, Shelburne S, Vence LM, Okhuysen PC, Jensen VB, Swennes AG, McAllister F, Marcelo Riquelme Sanchez E, Zhang Y, Le Chatelier E, Zitvogel L, Pons N, AustinBreneman JL, Haydu LE, Burton EM, Gardner JM, Sirmans E, Hu J, Lazar AJ, Tsujikawa T, Diab A, Tawbi H, Glitza IC, et al. 2018. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359:97–103. https://doi.org/10.1126/science.aan4236.
10. Integrative HMP Research Network Consortium. 2019. The Integrative Human Microbiome Project. Nature 569:641–648. https://doi.org/10 .1038/s41586-019-1238-8.
11. Thompson LR, Sanders JG, McDonald D, Amir A, Ladau J, Locey KJ, Prill RJ, Tripathi A, Gibbons SM, Ackermann G, Navas-Molina JA, Janssen S, Kopylova E, Vazquez-Baeza Y, Gonzalez A, Morton JT, Mirarab S, Zech Xu Z, Jiang L, Haroon MF, Kanbar J, Zhu Q, Jin Song S, Kosciolek T, Bokulich NA, Lefler J, Brislawn CJ, Humphrey G, Owens SM, Hampton-Marcell J, Berg-Lyons D, McKenzie V, Fierer N, Fuhrman JA, Clauset A, Stevens RL, Shade A, Pollard KS, Goodwin KD, Jansson JK, Gilbert JA, Knight R, Earth Microbiome Project Consortium. 2017. A communal catalogue reveals Earth's multiscale microbial diversity. Nature 551:457–463. https://doi .org/10.1038/nature24621.
12. McDonald D, Hyde E, Debelius JW, Morton JT, Gonzalez A, Ackermann G, Aksenov AA, Behsaz B, Brennan C, Chen Y, DeRight Goldasich L, Dorrestein PC, Dunn RR, Fahimipour AK, Gaffney J, Gilbert JA, Gogul G, Green JL, Hugenholtz P, Humphrey G, Huttenhower C, Jackson MA, Janssen S, Jeste DV, Jiang L, Kelley ST, Knights D, Kosciolek T, Ladau J, Leach J, Marotz C, Meleshko D, Melnik AV, Metcalf JL, Mohimani H, Montassier E, Navas-Molina J, Nguyen TT, Peddada S, Pevzner P, Pollard KS, Rahnavard G, Robbins-Pianka A, Sangwan N, Shorenstein J, Smarr L, Song SJ, Spector T, Swafford AD, Thackray VG, et al. 2018. American Gut: an open platform for citizen science microbiome research. mSystems 3: e00031-18. https://doi.org/10.1128/mSystems.00031-18.
13. Bork P, Bowler C, de Vargas C, Gorsky G, Karsenti E, Wincker P. 2015. Tara Oceans. Tara Oceans studies plankton at planetary scale. Introduction. Science 348:873. https://doi.org/10.1126/science.aac5605.
14. Kodama Y, Shumway M, Leinonen R, International Nucleotide Sequence Database Collaboration. 2012. The Sequence Read Archive: explosive growth of sequencing data. Nucleic Acids Res 40:D54–D56. https://doi .org/10.1093/nar/gkr854.
15. Wilke A, Bischof J, Gerlach W, Glass E, Harrison T, Keegan KP, Paczian T, Trimble WL, Bagchi S, Grama A, Chaterji S, Meyer F. 2016. The MG-RAST metagenomics database and portal in 2015. Nucleic Acids Res 44: D590–D594. https://doi.org/10.1093/nar/gkv1322.
16. Mitchell AL, Scheremetjew M, Denise H, Potter S, Tarkowska A, Qureshi M, Salazar GA, Pesseat S, Boland MA, Hunter FMI, Ten Hoopen P, Alako B, Amid C, Wilkinson DJ, Curtis TP, Cochrane G, Finn RD. 2018. EBI Metagenomics in 2017: enriching the analysis of microbial communities, from sequence reads to assemblies. Nucleic Acids Res 46:D726–D735. https:// doi.org/10.1093/nar/gkx967.
17. Santiago A, Panda S, Mengels G, Martinez X, Azpiroz F, Dore J, Guarner F, Manichanh C. 2014. Processing faecal samples: a step forward for standards in microbial community analysis. BMC Microbiol 14:112. https://doi .org/10.1186/1471-2180-14-112.
18. Gonzalez A, Navas-Molina JA, Kosciolek T, McDonald D, Vazquez-Baeza Y, Ackermann G, DeReus J, Janssen S, Swafford AD, Orchanian SB, Sanders JG, Shorenstein J, Holste H, Petrus S, Robbins-Pianka A, Brislawn CJ, Wang M, Rideout JR, Bolyen E, Dillon M, Caporaso JG, Dorrestein PC, Knight R. 2018. Qiita: rapid, web-enabled microbiome meta-analysis. Nat Methods 15:796–798. https://doi.org/10.1038/s41592-018-0141-9.
19. Shi W, Qi H, Sun Q, Fan G, Liu S, Wang J, Zhu B, Liu H, Zhao F, Wang X, Hu X, Li W, Liu J, Tian Y, Wu L, Ma J. 2019. gcMeta: a Global Catalogue of Metagenomics platform to support the archiving, standardization and analysis of microbiome data. Nucleic Acids Res 47:D637–D648. https://doi .org/10.1093/nar/gky1008.
20. Wu S, Sun C, Li Y, Wang T, Jia L, Lai S, Yang Y, Luo P, Dai D, Yang YQ, Luo Q, Gao NL, Ning K, He LJ, Zhao XM, Chen WH. 2019. GMrepo: a database of curated and consistently annotated human gut metagenomes. Nucleic Acids Res 48:D545–D553. https://doi.org/10.1093/nar/gkz764.
21. Su X, Jing G, McDonald D, Wang H, Wang Z, Gonzalez A, Sun Z, Huang S, Navas J, Knight R, Xu J. 2018. Identifying and predicting novelty in microbiome studies. mBio 9:e02099-18. https://doi.org/10.1128/mBio .02099-18.
22. Su X, Jing G, Sun Z, Liu L, Xu Z, McDonald D, Wang Z, Wang H, Gonzalez A, Zhang Y, Huang S, Huttley G, Knight R, Xu J. 2020. Multiple-disease detection and classification across cohorts via microbiome search. mSystems 5:e00150-20. https://doi.org/10.1128/mSystems.00150-20.
23. Ondov BD, Bergman NH, Phillippy AM. 2011. Interactive metagenomic visualization in a Web browser. BMC Bioinformatics 12:385. https://doi .org/10.1186/1471-2105-12-385.
24. Su X, Jing G, Zhang Y, Wu S. 2020. Method development for cross-study microbiome data mining: challenges and opportunities. Comput Struct Biotechnol J 18:2075–2080. https://doi.org/10.1016/j.csbj.2020.07.020.
25. Truong DT, Franzosa EA, Tickle TL, Scholz M, Weingart G, Pasolli E, Tett A, Huttenhower C, Segata N. 2015. MetaPhlAn2 for enhanced metagenomic taxonomic profiling. Nat Methods 12:902–903. https://doi.org/10.1038/ nmeth.3589.
26. Franzosa EA, McIver LJ, Rahnavard G, Thompson LR, Schirmer M, Weingart G, Lipson KS, Knight R, Caporaso JG, Segata N, Huttenhower C. 2018. Species-level functional profiling of metagenomes and metatranscriptomes. Nat Methods 15:962–968. https://doi.org/10.1038/s41592 -018-0176-y.
27. Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M. 2012. KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res 40:D109–D114. https://doi.org/10.1093/nar/gkr988.
28. McDonald D, Price MN, Goodrich J, Nawrocki EP, DeSantis TZ, Probst A, Andersen GL, Knight R, Hugenholtz P. 2012. An improved Greengenes taxonomy with explicit ranks for ecological and evolutionary analyses of bacteria and archaea. ISME J 6:610–618. https://doi.org/10.1038/ismej .2011.139.
29. Jing G, Sun Z, Wang H, Gong Y, Huang S, Ning K, Xu J, Su X. 2017. ParallelMETA 3: comprehensive taxonomical and functional analysis platform for efficient comparison of microbial communities. Sci Rep 7:40371. https:// doi.org/10.1038/srep40371.
30. Chen IA, Chu K, Palaniappan K, Pillay M, Ratner A, Huang J, Huntemann M, Varghese N, White JR, Seshadri R, Smirnova T, Kirton E, Jungbluth SP, Woyke T, Eloe-Fadrosh EA, Ivanova NN, Kyrpides NC. 2019. IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes. Nucleic Acids Res 47:D666–D677. https://doi.org/10.1093/nar/gky901.
31. Langille MG, Zaneveld J, Caporaso JG, McDonald D, Knights D, Reyes JA, Clemente JC, Burkepile DE, Vega Thurber RL, Knight R, Beiko RG, Huttenhower C. 2013. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nat Biotechnol 31:814–821. https://doi.org/10 .1038/nbt.2676.
32. Douglas GM, Maffei VJ, Zaneveld JR, Yurgel SN, Brown JR, Taylor CM, Huttenhower C, Langille MGI. 2020. PICRUSt2 for prediction of metagenome functions. Nat Biotechnol 38:685–688. https://doi.org/10.1038/ s41587-020-0548-6.
33. Su X, Wang X, Jing G, Ning K. 2014. GPU-Meta-Storms: computing the structure similarities among massive amount of microbial community samples using GPU. Bioinformatics 30:1031–1033. https://doi.org/10.1093/ bioinformatics/btt736.
34. Jing G, Zhang Y, Yang M, Liu L, Xu J, Su X. 2020. Dynamic Meta-Storms enables comprehensive taxonomic and phylogenetic comparison of shotgun metagenomes at the species level. Bioinformatics 36:2308–2310. https://doi.org/10.1093/bioinformatics/btz910.
35. Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD, Costello EK, Fierer N, Pena AG, Goodrich JK, Gordon JI, Huttley GA, Kelley ST, Knights D, Koenig JE, Ley RE, Lozupone CA, McDonald D, Muegge BD, Pirrung M, Reeder J, Sevinsky JR, Turnbaugh PJ, Walters WA, Widmann J, Yatsunenko T, Zaneveld J, Knight R. 2010. QIIME allows analysis of highthroughput community sequencing data. Nat Methods 7:335–336. https:// doi.org/10.1038/nmeth.f.303.