Nature子刊 | 大序列数据时代的原核生物分类学和命名法
随着基因组测序的发展,大量的数据为分类学提供了更全面的框架。基因组序列的空前可用性意味着分类学可以建立在一个全面的进化框架上,这是分类学家的长期目标。
然而,采用单一的框架来保持分类自由存在阻碍,而且从未培养的原核生物衍生的基因组数量不断增加,威胁着目前基于特征分离物的命名实践。
接下来的挑战是就分类学框架达成共识,并对现有的命名密码进行调整和扩展,或者创建一个新的密码,以系统地将未培养的分类单元纳入所选择的框架。
近日,一篇发表在The ISME Journal (10.1038/s41396-021-00941-x)题为“Prokaryotic taxonomy and nomenclature in the age of big sequence data” 的文章,针对微生物分类学和命名法进行完整概述,主要侧重于细菌和古菌,从过去到现代研究其发展脉络,并探讨了如何利用基因组测序技术来让微生物分类学更加全面和完善。
将生命形式分类为一个等级系统(taxonomy 分类学),并将名称应用于这个等级系统(nomenclature 命名法)是微生物学领域的一个重要转折点。
最早在1700年代,Linnaeus在工作中就引入了现代生物分类学 taxonomy(将动植物分类为等级类别)和命名法 nomenclature (命名动植物分类组的规则)的原理,这些原则如今已成为生物分类的基础。
最初的分类法是基于共同的特性,发育过程和行为,后来统称为表型,这些特征用于区分遗传信息(基因型)。
分类法 Taxonomy — 完善框架
Taxonomy 分类学在生物学中最常被定义为科学的一个分支,它根据共同的特性对生物体进行命名和分类。
生物学家认同分类学应该建立在进化关系的基础上,因为进化关系是排列生物的最自然的方式。由于微生物的表型特征大部分都没有揭示其共同祖先,所以微生物仍是系统发育框架中最有争议的分类单元 。
表型分类
第一次尝试根据表型特性对细菌进行分类,始于1923年Bergey 写的第一版确定性细菌学手册,细菌分类为嵌套的层次分类,以指示不同的相关度。最初,排名从最高(最远亲)到最低(最紧密相关)排名。关键主要依赖于形态、培养条件和致病特征,其主要目标是在物种水平上进行分离菌株的实际鉴定,而不是构建一个进化框架。
数值分类法,由Sokal和Sneath于1962年提出,用于定量比较包含几十种特征的细菌的表型特性。虽然在原则上,数字分类法可以纳入系统发育信息,但在实践中,它主要用于鉴定,缺乏一个严格的进化框架。
微生物分子分类先驱:小亚基rRNA
Zuckerkandl 和 Pauling 通过使用信息大分子来推断进化关系,打破了表型预测的局限性。Woese 发现核糖体可以用来构成所有生命进化框架的基础。最著名的是小亚基核糖体RNA(16S / 18S rRNA),基于其高度的序列保守性,并且和可变区域穿插在一起。而对小亚基rRNA的比较分析能够为整个生命树提供客观的进化框架。Woese和他的同事的分析的亮点是发现古细菌。
图源:scienceterms.net
传统培养方法遗漏的大量微生物可以通过16S rRNA基因获取。Pace和同事首次通过使用高度保守的“通用”引物,直接从环境中获得的16S rRNA序列表征微生物。这些引物随后用于从提取的基因组环境DNA中PCR扩增16S rRNA基因。然后将混合的扩增子克隆并测序,来获得微生物群落。随着测序技术的改进,大量的样本从各种环境被提取出来,从而开发出各种数据库和工具,用于分析和分类16S rRNA基因序列(表1)。
Hugenholtz P , et al. ISME J, 2021
多相分类法整合了表型和基因型的一种共识分类法,该分类法最能反映生物体的多种属性。
随着16S rRNA分析的出现,系统发育分类得到发展,由于16S rRNA基因的高序列保守性,对多相分类进行了分层,以使16S rRNA树可为属及以上分类水平属提供分类信息。
而化学分类学方法(如多基因座酶电泳和全细胞蛋白质分析)可以更好地划分物种和亚种水平。
全基因组测序的出现以及近年来技术的进步,加速了细菌和古细菌分类学上的发展,从基于16S rRNA的分类向基于基因组分类过渡。
基于基因组分类
与16S rRNA基因一样,基因组序列也可用于构建系统发育框架,并以此为基础进行系统分类。
基于基因组的分类比16S rRNA基因(仅占平均3-Mbp原核基因组的0.05%)对最古老和最近的关系提供了更高的分辨率,这是因为在比较中使用了更大比例的基因组,从而提供了更好的系统发育信号。
基于基因组序列构建进化树的方法有两种:超级树 supertrees 和 超级矩阵 supermatrices。
超级树:创建独立的基因树,然后将其组合以产生生物之间的系统发育关系。
超级矩阵:将基因连接到比对序列的系统发育矩阵中,然后从该矩阵中推断出树。
两种方法尽管基于不同的标记基因集,它们在分类学上的一致性为98.2%。
基于基因组序列的其他方法包括:成对的基因组之间进行相似性测量,或在编码蛋白质水平,或在核酸水平和DNA-DNA杂交,这些方法主要用于定义和识别物种。
基因组测序也可以对未培养的物种进行分析。随着测序技术和计算方法的改进,如今可以从环境DNA中获得天然微生物种群近乎完整的基因组序列,即所谓的宏基因组组装的基因组(MAG)。由于相对容易从单个基因组中获得多个MAG,因此可用MAG的数量迅速超过了分离基因组的数量。
未培养的分类单元的基因组数据的快速积累给分类学带来巨大挑战,根据系统发育树的指标,估计未培养的分类单元占微生物多样性的85%以上,意味着过去几十年建立的分类框架在其中存在重大差距。这个问题在病毒世界中更加明显。
众所众知,原核微生物分类学在系统发育上存在不一致的情况(多系统分类学)由以下原因导致:沿用历史上的表型数据、基于16S rRNA基因序列嵌合来自环境的PCR产物、基于早期的系统发育结论缺乏合适群体。来自未培养分类群的基因组使得问题更加复杂。
因此,已经开发了一些数据库和工具,试图通过建立可靠的微生物分类系统发育框架来解决这些缺点,首先使用16srRNA基因序列,最近使用宏基因组序列。但这必须建立在数十万个序列提供的微生物多样性全局视图上,对于单个基因来说已经很困难了,对于宏基因组来说更为困难。随着信息的不断增长,这些数据库能否继续扩张还有待观察。
从历史上看,基于表型数据的等级定义非常主观,特别是对于物种以上等级。基于基因组的分类能实现量化操作更加客观,并且可实现定义属和更高等级的机会。
2014年,Yarza及其同事提出了基于16S rRNA基因序列同一性的标准化阈值,用于定义从属到门的原核世系。尽管可以肯定地消除了分类学分类中的许多不一致之处,并且可以容纳未培养的分类单元,但这种方法并未考虑谱系之间的系统发育关系和可变的进化速率。
命名法 Nomenclature — 控制词汇表
命名法的发展
图1:过去100年中原核生物分类学和命名法中的关键事件
Hugenholtz P , et al. ISME J, 2021
缺乏未培养的多样性的命名法
由于技术的进步,未培养微生物的详细分子表征是一项相对较新的创新(请参见16S rRNA和基于基因组的分类)。这类生物对原核生物的编码构成了挑战,因为它们的名称不能被有效命名,这是由于物种描述必须建立在纯培养型菌株的基础上。
1994年,通过引入Candidatus的临时状态介绍,提出了一种未培养类群的早期命名规则。Candidatus一词作为任何等级的共同名称的前缀,以表示该分类单元的临时性质。
Candidatus最初是在16S rRNA环境调研时提出的。与分离株相比,它们的描述范围是受限的。然而随着MAGs和SAGs的出现,微生物不需要分离就能描述其功能。在2016年,有人提出,基因序列作为类型材料,因为它们能够用于命名法提供明确的参考点,特别是全基因组序列。鉴于掺入未培养的微生物进原核代码的命名法的困难,建议创建一个独立的编码命名这些类群。
命名定标问题
最近的一项估计显示,全球原核生物的数量在220万—430万之间,低于之前估计的数万亿。即使是这个向下修正的估计,在数百万种物种和目前有效公布的物种数量(~21K)和基因组描述的物种数量(~25K)之间仍存在巨大差距。
在未来的几十年里,作者很可能在基因组表达方面弥补这一差距,但通过原核密码验证如此大量的新物种的名称目前还不可能用于未培养的类群。并不是所有被识别的物种都需要用拉丁名称,前提是建立和维持一个系统的分类框架,该框架具有基因组限定物种的唯一和永久对象标识符。只有对科学界有足够兴趣的物种才会被更深入地描述和命名。
原核命名和微生物生态学间争论
微生物生态学家一直认为有必要为他们研究的微生物命名,然而,大多数生态学家并不太熟悉命名规则。这导致了两个学科之间的一些争论点,一旦在原核代码或新代码下更正式地考虑到未培养的分类群,这些争论点可能会扩大。
首先,代码要求严格遵守正确的拉丁语语法,在作为原始文章或验证列表发表在《国际系统与进化微生物学杂志》(IJSEM)上之前,由一小群专家定期检查名称的词源正确性。
第二,自1975年《原核生物密码法》修订以来,有一项要求,即从属名的词干和标准化后缀组成更高级别的属名。
此外,要求在从属属茎上形成更高等级的名称,导致有人提议完全改变一些更高分类单元的名称,尽管法典中有保留这一要求之前的较早名称的余地。
原核生物分类学和命名法的十字路口
原核生物的分类和命名处在一个有趣的十字路口。从积极的方面来看,从来没有像现在这样,利用新兴的微生物基因组测序资源,以客观的进化关系为基础来发展一种分类方法。随着时间的推移,微生物分类法随着方法的改进而不断演变,有人认为,出于这个原因,应该避免正式的分类法,以防止它在方法上过时。然而,基因组是生命最基本的蓝图,因此不太可能出现一种被广泛接受的替代方法,从而产生一种完全不同的、改进的分类方法。尽管开发一个全面的基于基因组的分类法在生物信息学上面临挑战,但使用不同标记基因组合的独立项目之间的高度一致性预示着一个稳健的进化框架,可以形成一个稳定的分类法的基础。
虽然分类学的多相方法的想法是可以理解的,特别是使用多种特征来定义生态一致单位的目标,但作者认为,单独的基因组序列,特别是保守的垂直遗传核心操作基因的子集,应该构成分类学框架的基础。所有其他表型、基因型和生态数据都可以有效地叠加到这个框架上,以便了解它们相对于树种的个体分布和进化轨迹。
科学界普遍接受的单一一致分类法的好处是多方面的,包括改进互操作性和通信。这是发展GTDB的动力,GTDB非常强调包含性(即,使用尽可能多的来自培养和未培养分类群的高质量序列数据)和系统化(例如,定义物种代表性和等级的统一和可复制的方法,提供从领域到物种的完整分类学分配)。
一个标准化的分类学框架需要一个相似的、可复制的、客观的、能随手头的任务而扩展的命名法。官方的原核命名法是在大规模基因组测序和未培养分类群特征化出现之前制定的,因此不包括未培养微生物的大多数。
要克服这一点,要么开发一种以基因组序列为类型材料的单独命名法,要么对原核代码中分类群的管理规则进行重大修改。如果有必要开发一个单独的命名法,它可以提供一个机会,利用原核生物代码的最佳元素,简化陷入历史遗留问题的其他部分,这些部分对用户不友好,不能很好地适应大序列数据的挑战。一个例子是简化或自动形成拉丁语或希腊语的名称,并具有正确的词源,否则全世界只有少数实践者能够确保这一点。
消极的一面是,采用统一的标准化分类法将不可避免地伴随着越来越多的漏洞。一些行业已经开始制定特定的分类法和相关的命名法,它们不一定遵循进化框架。开发一个新的命名法,它确实带有与现有原核代码互操作性挑战的潜在负面影响。然而,这并不是史无前例的,例如蓝细菌的案例,因此应该通过命名委员会之间的公开对话来管理。
通过精心管理和充足的资源,对于新一代使用现代方法研究微生物世界的研究人员而言,基于基因组的分类和简化的命名将会受到欢迎。