Nature子刊 | 大序列数据时代的原核生物分类学和命名法

2024-06-08 05:51:57

随着基因组测序的发展，大量的数据为分类学提供了更全面的框架。基因组序列的空前可用性意味着分类学可以建立在一个全面的进化框架上，这是分类学家的长期目标。

然而，采用单一的框架来保持分类自由存在阻碍，而且从未培养的原核生物衍生的基因组数量不断增加，威胁着目前基于特征分离物的命名实践。

接下来的挑战是就分类学框架达成共识，并对现有的命名密码进行调整和扩展，或者创建一个新的密码，以系统地将未培养的分类单元纳入所选择的框架。

近日，一篇发表在The ISME Journal （10.1038/s41396-021-00941-x）题为“Prokaryotic taxonomy and nomenclature in the age of big sequence data” 的文章，针对微生物分类学和命名法进行完整概述，主要侧重于细菌和古菌，从过去到现代研究其发展脉络，并探讨了如何利用基因组测序技术来让微生物分类学更加全面和完善。

将生命形式分类为一个等级系统（taxonomy 分类学），并将名称应用于这个等级系统（nomenclature 命名法）是微生物学领域的一个重要转折点。

最早在1700年代，Linnaeus在工作中就引入了现代生物分类学 taxonomy（将动植物分类为等级类别）和命名法 nomenclature （命名动植物分类组的规则）的原理，这些原则如今已成为生物分类的基础。

最初的分类法是基于共同的特性，发育过程和行为，后来统称为表型，这些特征用于区分遗传信息（基因型）。

分类法 Taxonomy — 完善框架

Taxonomy 分类学在生物学中最常被定义为科学的一个分支，它根据共同的特性对生物体进行命名和分类。

生物学家认同分类学应该建立在进化关系的基础上，因为进化关系是排列生物的最自然的方式。由于微生物的表型特征大部分都没有揭示其共同祖先，所以微生物仍是系统发育框架中最有争议的分类单元。

表型分类

第一次尝试根据表型特性对细菌进行分类，始于1923年Bergey 写的第一版确定性细菌学手册，细菌分类为嵌套的层次分类，以指示不同的相关度。最初，排名从最高（最远亲）到最低（最紧密相关）排名。关键主要依赖于形态、培养条件和致病特征，其主要目标是在物种水平上进行分离菌株的实际鉴定，而不是构建一个进化框架。

数值分类法，由Sokal和Sneath于1962年提出，用于定量比较包含几十种特征的细菌的表型特性。虽然在原则上，数字分类法可以纳入系统发育信息，但在实践中，它主要用于鉴定，缺乏一个严格的进化框架。

微生物分子分类先驱：小亚基rRNA

Zuckerkandl 和 Pauling 通过使用信息大分子来推断进化关系，打破了表型预测的局限性。Woese 发现核糖体可以用来构成所有生命进化框架的基础。最著名的是小亚基核糖体RNA（16S / 18S rRNA），基于其高度的序列保守性，并且和可变区域穿插在一起。而对小亚基rRNA的比较分析能够为整个生命树提供客观的进化框架。Woese和他的同事的分析的亮点是发现古细菌。

图源：scienceterms.net

传统培养方法遗漏的大量微生物可以通过16S rRNA基因获取。Pace和同事首次通过使用高度保守的“通用”引物，直接从环境中获得的16S rRNA序列表征微生物。这些引物随后用于从提取的基因组环境DNA中PCR扩增16S rRNA基因。然后将混合的扩增子克隆并测序，来获得微生物群落。随着测序技术的改进，大量的样本从各种环境被提取出来，从而开发出各种数据库和工具，用于分析和分类16S rRNA基因序列（表1）。

Hugenholtz P , et al. ISME J, 2021

多相分类法整合了表型和基因型的一种共识分类法，该分类法最能反映生物体的多种属性。

随着16S rRNA分析的出现，系统发育分类得到发展，由于16S rRNA基因的高序列保守性，对多相分类进行了分层，以使16S rRNA树可为属及以上分类水平属提供分类信息。

而化学分类学方法（如多基因座酶电泳和全细胞蛋白质分析）可以更好地划分物种和亚种水平。

全基因组测序的出现以及近年来技术的进步，加速了细菌和古细菌分类学上的发展，从基于16S rRNA的分类向基于基因组分类过渡。

基于基因组分类

与16S rRNA基因一样，基因组序列也可用于构建系统发育框架，并以此为基础进行系统分类。

基于基因组的分类比16S rRNA基因(仅占平均3-Mbp原核基因组的0.05%)对最古老和最近的关系提供了更高的分辨率，这是因为在比较中使用了更大比例的基因组，从而提供了更好的系统发育信号。

基于基因组序列构建进化树的方法有两种：超级树 supertrees 和超级矩阵 supermatrices。

超级树：创建独立的基因树，然后将其组合以产生生物之间的系统发育关系。

超级矩阵：将基因连接到比对序列的系统发育矩阵中，然后从该矩阵中推断出树。

两种方法尽管基于不同的标记基因集，它们在分类学上的一致性为98.2％。

基于基因组序列的其他方法包括：成对的基因组之间进行相似性测量，或在编码蛋白质水平，或在核酸水平和DNA-DNA杂交，这些方法主要用于定义和识别物种。

基因组测序也可以对未培养的物种进行分析。随着测序技术和计算方法的改进，如今可以从环境DNA中获得天然微生物种群近乎完整的基因组序列，即所谓的宏基因组组装的基因组(MAG)。由于相对容易从单个基因组中获得多个MAG，因此可用MAG的数量迅速超过了分离基因组的数量。

未培养的分类单元的基因组数据的快速积累给分类学带来巨大挑战，根据系统发育树的指标，估计未培养的分类单元占微生物多样性的85％以上，意味着过去几十年建立的分类框架在其中存在重大差距。这个问题在病毒世界中更加明显。

众所众知，原核微生物分类学在系统发育上存在不一致的情况（多系统分类学）由以下原因导致：沿用历史上的表型数据、基于16S rRNA基因序列嵌合来自环境的PCR产物、基于早期的系统发育结论缺乏合适群体。来自未培养分类群的基因组使得问题更加复杂。

因此，已经开发了一些数据库和工具，试图通过建立可靠的微生物分类系统发育框架来解决这些缺点，首先使用16srRNA基因序列，最近使用宏基因组序列。但这必须建立在数十万个序列提供的微生物多样性全局视图上，对于单个基因来说已经很困难了，对于宏基因组来说更为困难。随着信息的不断增长，这些数据库能否继续扩张还有待观察。

从历史上看，基于表型数据的等级定义非常主观，特别是对于物种以上等级。基于基因组的分类能实现量化操作更加客观，并且可实现定义属和更高等级的机会。

2014年，Yarza及其同事提出了基于16S rRNA基因序列同一性的标准化阈值，用于定义从属到门的原核世系。尽管可以肯定地消除了分类学分类中的许多不一致之处，并且可以容纳未培养的分类单元，但这种方法并未考虑谱系之间的系统发育关系和可变的进化速率。

命名法 Nomenclature — 控制词汇表

命名法的发展

图1：过去100年中原核生物分类学和命名法中的关键事件

Hugenholtz P , et al. ISME J, 2021

缺乏未培养的多样性的命名法

由于技术的进步，未培养微生物的详细分子表征是一项相对较新的创新（请参见16S rRNA和基于基因组的分类）。这类生物对原核生物的编码构成了挑战，因为它们的名称不能被有效命名，这是由于物种描述必须建立在纯培养型菌株的基础上。

1994年，通过引入Candidatus的临时状态介绍，提出了一种未培养类群的早期命名规则。Candidatus一词作为任何等级的共同名称的前缀，以表示该分类单元的临时性质。

Candidatus最初是在16S rRNA环境调研时提出的。与分离株相比，它们的描述范围是受限的。然而随着MAGs和SAGs的出现，微生物不需要分离就能描述其功能。在2016年，有人提出，基因序列作为类型材料，因为它们能够用于命名法提供明确的参考点，特别是全基因组序列。鉴于掺入未培养的微生物进原核代码的命名法的困难，建议创建一个独立的编码命名这些类群。

命名定标问题

最近的一项估计显示，全球原核生物的数量在220万—430万之间，低于之前估计的数万亿。即使是这个向下修正的估计，在数百万种物种和目前有效公布的物种数量(~21K)和基因组描述的物种数量(~25K)之间仍存在巨大差距。

在未来的几十年里，作者很可能在基因组表达方面弥补这一差距，但通过原核密码验证如此大量的新物种的名称目前还不可能用于未培养的类群。并不是所有被识别的物种都需要用拉丁名称，前提是建立和维持一个系统的分类框架，该框架具有基因组限定物种的唯一和永久对象标识符。只有对科学界有足够兴趣的物种才会被更深入地描述和命名。

原核命名和微生物生态学间争论

微生物生态学家一直认为有必要为他们研究的微生物命名，然而，大多数生态学家并不太熟悉命名规则。这导致了两个学科之间的一些争论点，一旦在原核代码或新代码下更正式地考虑到未培养的分类群，这些争论点可能会扩大。

首先，代码要求严格遵守正确的拉丁语语法，在作为原始文章或验证列表发表在《国际系统与进化微生物学杂志》（IJSEM）上之前，由一小群专家定期检查名称的词源正确性。

第二，自1975年《原核生物密码法》修订以来，有一项要求，即从属名的词干和标准化后缀组成更高级别的属名。

此外，要求在从属属茎上形成更高等级的名称，导致有人提议完全改变一些更高分类单元的名称，尽管法典中有保留这一要求之前的较早名称的余地。

原核生物分类学和命名法的十字路口

原核生物的分类和命名处在一个有趣的十字路口。从积极的方面来看，从来没有像现在这样，利用新兴的微生物基因组测序资源，以客观的进化关系为基础来发展一种分类方法。随着时间的推移，微生物分类法随着方法的改进而不断演变，有人认为，出于这个原因，应该避免正式的分类法，以防止它在方法上过时。然而，基因组是生命最基本的蓝图，因此不太可能出现一种被广泛接受的替代方法，从而产生一种完全不同的、改进的分类方法。尽管开发一个全面的基于基因组的分类法在生物信息学上面临挑战，但使用不同标记基因组合的独立项目之间的高度一致性预示着一个稳健的进化框架，可以形成一个稳定的分类法的基础。

虽然分类学的多相方法的想法是可以理解的，特别是使用多种特征来定义生态一致单位的目标，但作者认为，单独的基因组序列，特别是保守的垂直遗传核心操作基因的子集，应该构成分类学框架的基础。所有其他表型、基因型和生态数据都可以有效地叠加到这个框架上，以便了解它们相对于树种的个体分布和进化轨迹。

科学界普遍接受的单一一致分类法的好处是多方面的，包括改进互操作性和通信。这是发展GTDB的动力，GTDB非常强调包含性（即，使用尽可能多的来自培养和未培养分类群的高质量序列数据）和系统化（例如，定义物种代表性和等级的统一和可复制的方法，提供从领域到物种的完整分类学分配）。

一个标准化的分类学框架需要一个相似的、可复制的、客观的、能随手头的任务而扩展的命名法。官方的原核命名法是在大规模基因组测序和未培养分类群特征化出现之前制定的，因此不包括未培养微生物的大多数。

要克服这一点，要么开发一种以基因组序列为类型材料的单独命名法，要么对原核代码中分类群的管理规则进行重大修改。如果有必要开发一个单独的命名法，它可以提供一个机会，利用原核生物代码的最佳元素，简化陷入历史遗留问题的其他部分，这些部分对用户不友好，不能很好地适应大序列数据的挑战。一个例子是简化或自动形成拉丁语或希腊语的名称，并具有正确的词源，否则全世界只有少数实践者能够确保这一点。

消极的一面是，采用统一的标准化分类法将不可避免地伴随着越来越多的漏洞。一些行业已经开始制定特定的分类法和相关的命名法，它们不一定遵循进化框架。开发一个新的命名法，它确实带有与现有原核代码互操作性挑战的潜在负面影响。然而，这并不是史无前例的，例如蓝细菌的案例，因此应该通过命名委员会之间的公开对话来管理。

通过精心管理和充足的资源，对于新一代使用现代方法研究微生物世界的研究人员而言，基于基因组的分类和简化的命名将会受到欢迎。

Cell 高彩霞组综述基因编辑在作物改良的应用，全文翻译，值得收藏

2021年2月12日,Cell杂志在线发表了来自中国科学院遗传发育所高彩霞组发表题为"Genome engineering for crop improvement and future a ...
科研 | Scientific Data：高覆盖率16S和鸟枪法测序检测肠道微生物多样性

编译:Mushroom,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读肠道微生物在人类健康和疾病中发挥重要作用,但是利用下一代测序研究肠道微生物的复杂结构和功能还有很多问题尚未解决.本研究采 ...
综述 | Nature子刊：微生物组学研究方法，看这一篇就够了（IF：31.851）

本文由卡内斯坦编译,董小橙.江舜尧编辑. 原创微文,欢迎转发转载. 导读微生物组学研究主要涉及两方面技术:测序技术和数据分析技术.近年来,这两方面技术都在不断进步.如何为自己的研究选择恰当的技术方法 ...
综述 | Protein&Cell：单细胞宏基因组学的挑战与应用(国人作品)

编译:橙子,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读高通量测序和单细胞基因组学技术的发展,使得许多不可培养菌群被分离出来.特别是利用单细胞基因组学和宏基因组学,研究人员可以大大提高从复 ...
科研 | Molecular Ecology Resources：SCycDB--硫循环途径宏基因组分析的功能基因数据库

编译:独世,编辑:木木夕.江舜尧. 原创微文,欢迎转发转载. 导读微生物在硫的生物地球化学循环中起着重要作用,硫是地球生物圈中的重要元素.鸟枪法宏基因组测序为我们进一步了解参与硫循环的微生物群落开辟 ...
不同土壤深度之间微生物格局有何不同？

本论文探究了典型草原生态系统中多个土壤深度下细菌和古菌群落的空间分布特征,有助于更全面了解微生物群落的空间尺度变化!以下文章来源于微生态笔记 ,作者DengLab. 微生物生态检测分析方法以及研究前沿 ...
（大）数据时代：多样密码技术解读

背景美国国家标准与技术研究所(NIST)发布的<NIST大数据互操作框架>中大量提到密码技术,也证明了密码技术是解决数据安全问题最优的技术保障手段已经成为共识.作为密码技术的从业者,通过 ...
Nature子刊：趣味数据！人体每天更新多少细胞和细菌？ | 热心肠日报

Nature Medicine [IF:36.13] The distribution of cellular turnover in the human body 人体内的细胞更替分布 10.103 ...
大数据时代大数据技术的应用和面临的挑战

大数据时代,大数据已经成为了我们生活中一个重要的角色,他在每一个领域都发挥着重要的作用,给我们的生活生产都带来了非常多的便利,那么大数据在我们生活中到底有哪些应用呢?又面临这哪些挑战呢? 一.大数据技 ...
纳米光栅——大数据时代光存储的下一个风口？

文/姚倩.戴晔,上海大学物理系超快光子学实验室您的存储空间告急- 人类文明发展至今离不开信息的记录.从绘画.雕刻.印刷到如今的数字化信息存储,存储容量呈指数增长.根据软件公司Domo的报告,2018 ...
【学府点拨】概率——随机世界与大数据时代

概率的意义一骰子有6个面,一掷之下,会得到偶数之概率为何?骰子看起来没有异样,就假设每个面出现的概率皆相同,即均为1/6.而偶数面有2,4,及6等3个.因此所求之概率为3/6.这就是所谓古典的概率, ...
【学术观点】大数据时代的网络舆情管理

随着移动互联网.物联网等新技术的迅速发展,人类进入数据时代.大数据带来的信息风暴正深刻改变我们的生活.工作和思维方式,对网络舆情管理也带来深刻影响. 一.大数据时代网络舆情管理面临的新形势大数据意味 ...
大数据时代的网络舆情研究现状及治理模式！

随着互联网技术的发展,中国进入大数据时代.以数据量大.类型多.价值密度低.速度快为本质特征的大数据,带动网络舆情形成新变化.新发展.网络舆情的参与主体日益多元,参与途径更为多样,网络舆情监管技术不断提 ...
行业丨大数据时代，园区招商引资的七大关键

经济发展离不开产业园区的合理规划,如何才能打造一个园区,使之规模化.产业化,从而带动当地产业联动.经济发展,是各个地方都在探讨的问题. 01 把握产业规划每个地方都有其独特的产业,都需要适合其产业发 ...
大数据时代的突破性TI 体声波(BAW)技术

时钟信号常用于同步电路,保证着相关电子组件得以同步运作.被形容为电子产品的心脏,可见时钟对电子产品的重要性. 传统的时钟使用石英晶体通过晶体振荡产生电子心跳,实现精确的节奏.但这些晶体的成本昂贵.易磨 ...

Nature子刊 | 大序列数据时代的原核生物分类学和命名法

相关推荐