综述 | Nat. Rev. Microbiol：物种内的多样性：解释微生物组中的菌株 / 开普饭

编译：艾奥里亚，编辑：小菌菌、江舜尧。

原创微文，欢迎转发转载。

导读

传统上，对种内变异的研究仅限于可培养的细菌分离株和低分辨率微生物群落指纹图谱。宏基因组测序和技术的进步使得在高通量和复杂环境中能够进行不依赖培养的、高分辨率的菌株和亚种分析成为可能。这蕴含着巨大的科学希望，但也导致了大量描述同物种变异的方法和术语的产生。本综述旨在通过关注微生物学背景下细菌和古菌物种的多样性来阐明相关的研究进展。我们涵盖了与种群遗传学相关的基本微进化概念，并基于宏基因组学技术总结了如何直接的在微生物群落内逐级进行研究以及进行物种内变异的研究。最后，我们描述了如何利用宏基因组数据实现物种内变异的常见应用。本文为指导研究人员选择合适的术语和分析方法，以方便从日益增多的可用的、高分辨率微生物组基因测序数据中获益提供便利

论文ID

原名：Diversity within species: interpreting strainsin microbiomes

译名：物种内的多样性：解释微生物群落中的菌株

期刊：Nature Reviews Microbiology

IF：34.209

发表时间：2020年6月4日

通讯作者：Peer Bork

通讯作者单位：欧洲分子生物学实验室

主要内容

1 物种内的变异和species cohesion

1.1 导致物种内变化的过程

物种内的多样性是变异产生以及随后的选择和漂移的连续过程的结果（图1）。突变和基因流动将遗传变异性引入克隆子代细胞的其他相同谱系中。

由于DNA复制过程中的错误、诱变剂造成的损害或DNA修复和重组机制中的错误，使得基因组中不断出现突变（即替换、插入、缺失和反转）。尽管基于双螺旋DNA的生物体的典型突变率约为每10⁹个核苷酸中有1个核苷酸发生突变，但这种突变率可以在物种之间和物种内部以数量级的形式变化。选择较低或较高的比率可以平衡降低突变频率对于有害突变所产生的影响的代谢成本。这种平衡的方向取决于栖息地条件、种群大小和突变体等位基因强度等方面。细菌家族内突变累积的速度取决于突变率，也取决于自然选择和基因漂移。这进一步使观察到的突变率更具有多样化。此外，并不是细菌基因组的所有部分都同样容易发生突变。除非核心基因位于附属基因或可遗传因子附近，否则辅助基因的突变累积率高于核心基因，次级染色体的突变累积率高于初级染色体。一般来说，缺失比插入更普遍，此外，非功能序列很容易在细菌基因组中丢失。一个基因组中出现的突变可以垂直传递给后代，也可以水平传递给邻近细胞。

遗传变异从一个群体转移到另一个群体会导致基因组区域的快速和大规模的添加和重排。DNA可以通过转化、转导、结合等方式在细胞间进行水平基因转移。新获得的供体DNA可以在受体细胞内保持分离，或者可以通过许多机制（包括同源重组）整合到受体的基因组中。水平基因转移（HGT）尽管在物种内更为频繁，但同样也可发生在物种间。HGT可以通常在物种内可以通过同源重组或者获得新的遗传物质的方式导致用供体同源物替换遗传片段。就对于种内变异的影响而言，HGT最重要的因素不是机制（例如同源重组），而是所转移的遗传物质对受体群体或物种是否具有新颖性。限制HGT的主要过程包括接合过程缺乏表面相容性、CRISPR介导的微生物免疫和限制噬菌体的宿主特异性。同种突变体之间HGT的最著名的例子包括Clostridioides difficile和E.coli中的两个案例，即毒素基因从产毒菌株转移到非产毒菌株，并造成了54人死亡。

自然选择和遗传漂移决定了通过突变和基因漂移引入的种内变异的命运。基因漂移随机消除种群内的遗传变异，而自然选择则维持或消除分别赋予适应度优势或劣势的变异。在这种情况下，自然选择的效果受到遗传漂移的背景噪声的限制。自然选择是由多种生物和非生物因素共同驱动的，这些因素对物种亚群的生存和复制能力有着不同的影响（图1）。这些因素可以通过群落组合和经典的进化力，在物种和物种内塑造微生物群落的组成。选择压力因素因生境而异，这些生境条件可能包括pH、温度、氧气和其他气体的浓度、养分的可获得性、与其他细菌的直接竞争或共生、噬菌体和真核生物的捕食，以及药物、抗菌化合物和重金属等能够诱导应激反应的外来物质的存在等。

图1 细菌物种内变异的驱动因素。

1.2 species cohesion的物种定义和机制

通过突变体的垂直积累和基因的水平获取，一个细胞的后代之间的变异可以不断增加，从而创造出跨细菌基因组的连续遗传变异景观。然而，当比较不同细菌的基因组相似性时，可以观察到不同的聚类。在本综述中，我们使用“物种”这个词来反映这些遗传相似性的聚类。

几十年来，基于基因组相似性的细菌物种划分一直是使用DNA-DNA杂交（DDH）来测量的。根据细菌命名编码，我们将相似性≥70%的基因定义为同种基因组。然而目前，DDH越来越多地被分离株的DNA测序和平均核苷酸同一性（ANI）比较所补充或取代，其中DDH中≥70%的相似性相当于ANI中核心基因组中≥94%相似性或是以及≥96%通用标记基因。这些相似的对应值可能会影响物种的分类，如Fusobacterium nucleatum，基于DDH结果将其定义为一个亚种，但在基于ANI的重新评估后，建议重新分类为单独的物种。先前的研究建议，利用宏基因组数据可以识别存在独特的细菌物种的边界。最近基于全基因组（约95%）和标记基因（96.5%）的大规模研究在ANI阈值上证实了这一边界，并描述了核心基因组中基因漂移的急剧下降。

尽管基因组ANI数据总体上是一致的，但对于细菌和古菌物种的定义仍然存在争议，其中一些研究人员对多达有20多个“物种”的概念定义存在质疑。物种的生物学和系统发育概念最适用于细菌和古菌。前者将物种定义为一组可以杂交产生可存活后代的个体，而后者将物种定义为具有独特表型特征的分支。这两个概念都预测不同物种之间的同源重组和HGT的比率会下降。基于ANI的基因组比较不一定能很好地适用于许多潜在的物种的定义。取而代之的是，除了ANI之外，还可以使用诸如表型、通用单一拷贝基因（例如，16S rRNA）的相似性或基因含量等其他方法来对物种进行额外的定义。物种间的基因组相似性称为“cohesion”。这主要是通过种内重组和针对低适合度等位基因的选择来维持的。如果一个等位基因比一个群体中的所有其他等位基因都更有利，它可以完全在该群体中传播。当重组率较低时，整个基因组很可能会与这种适应性等位基因一起hitchhike，导致全基因组选择性清扫。

1.3 物种内变异的大小和结构的决定因素

物种内的多样性在不同程度上被产生、维持和清除，以至于一些物种存在高度异质性，而另一些物种是密切相关的。这些种内变异的特征取决于观察到的种群，这种特征可以被整体描述同样也可以被局部描述。增加多样性的强度和保持cohesion的强度之间的平衡决定了物种内部变异的大小和结构。

物种内产生的变异量取决于突变率、世代时间、种间HGT的趋势和种群大小，而持续的变异量取决于其栖息地选择压力程度、种群大小以及选择性清除的频率和严重程度。divergence和cohesion之间的平衡受到选择和漂移的调节，而选择和漂移是由生态位的生物和非生物因素共同塑造所形成的（图1）。如果被转移的物质对受体群体来说是新的（相对较远的亲属关系），那么HGT可以增加群体内的遗传变异。相反，如果HGT将遗传物质传播到整个群体，就特定基因含量或单核苷酸变体（SNV）的存在而言，它可以使群体同质化，从而导致基因特异性的Hard selective sweep（一个位点上的一个有益等位基因取代了种群中的大多数其他等位基因）。

在一个物种中，一个结构化的种群可能归因于Soft selective sweeps（一个位点上的多个有益等位基因获得流行，取代种群中的常规遗传变异）以及漂移和扩散到具有相似或新生态位的新位置的组合而产生。例如，当突变生成率高而种内重组率低时，菌株可能会分化成内部相对更有cohesion的亚群。这可能会导致亚种的建立。亚种形成可由物理或地理障碍引起或加速，这些障碍阻碍了亚种群间的基因漂移，从而导致亚种的分化。然而，亚种形成也可以在没有空间分离的情况下发生。在这种情况下，亚种群的形成可能更具有专业化，例如，减少对资源的竞争。由于细菌和古菌的极端分散性，很少见到对基因漂移的完全物理阻断，而常见于物理阻断与基因漂移之间的一种稳态。当偶尔发生基因漂移和生态位重叠时，净化选择可以保持亚种之间的部分cohesion，这可以防止建立稳定的亚种时出现分歧。

在一个极端情况下，物种可能是单型的；也就是说，它们在整个种群中具有一致或“模糊”的遗传相似性分布。多样性低的单型物种更有可能是专性物种，具有狭窄的地理分布或寄主范围，或是最近物种形成的产物的特点。例如Chlamydia trachomatis是一种单型、低多样性的胞内致病菌种。在另一个极端情况，具有亚种（多型性）和高度多样性的物种能够更自由的生活，具有多种适应波动的环境以及广泛的地理范围或许多部分重叠的生态位的能力。例如，E. coli至少有6个系统类群，它们往往各自普遍生活在其不同的栖息地中。

对于上述大部分种群的了解都是基于培养实验而获得。微生物组学方法的兴起使许多物种的变异得以大规模地表征，并提供了有希望的新的研究途径。为了有意义地将这些新的发现放在日后的而研究中，重要的是适当地调整目前已有知识中的概念和术语，以便在宏基因组研究中更方便的使用。

1.4 物种内变异的逐层分析

物种内的变异通常需要逐步的分成不同有意义的组分来进行研究，并与分类变量相关联，如健康状况、地理位置或代谢能力。上述理论可以支持这类群体的概念定义，但一般来说，这些理论不能直接用于微生物研究。相反，突变体的操作定义必须基于可以测量的标准来设计。通常，这是在遗传或表型尺度上完成的。用于操作定义变异组（如菌株）的适当度量取决于所要研究的生物学问题和所使用的方法（图2a）。

图2 物种内分层。a代表不同的操作定义的“菌株”，基于研究领域可以分为经典微生物学中对分离株的研究，系统发育树的节点中的研究以及宏基因组组装的基因组中进行研究；b代表每一点都是一个分离基因组与所有其他同种分离基因组的两两比较；c代表用于分层细菌物种内变异的关键术语的空间分布。

1.5 利用宏基因组数据进行遗传分层

物种内的遗传变异可以通过多种方式来度量，其中一些常见的指标包括总体基因组相似性、共享和独特基因的数量以及SNV的数量和性质。在本节中，我们讨论如何采取这些方法并探讨其优势和局限性。当将这些分析方法应用于宏基因组测序所产生的大量数据时，种内可以以高通量的方式对许多物种同时进行分析，但这也会引发各种数据质量问题，例如数据的不完整性或部分数据出现错误，以及诸如大量计算和存储需求之类的技术挑战。

在物种水平上同种基因组之间的总体相似性即可以直接从从宏基因组数据中进行读取，同样也可以通过参考基因组或通过宏基因组组装基因组（MAGs）进行评估。基于参考基因组的方法可能会受到适当参考基因组的低可用性的限制，该限制在非人类微生物组中尤其严重。尽管有大量的MAGs可以被作为参考，同时计算平均核苷酸同一性（ANI）的方法效率也有所提高，但目前为大型基因组队列计算ANI在计算水平上仍具有挑战性。此外，由于数据质量的限制和不完整性，在ANI比较中使用MAG可能会引入不准确性。

ANI和重组率的下降可能表明一个物种正在不断细分。但是，与物种边界相反，种内变体似乎没有显示出基于将其分为几类的基因组或标记基因的通用阈值。相反，物种内ANI值的范围和分布因分类群和种群的不同而异，这限制了其在广泛分层中的效用。此外，由少量核苷酸相对于基因组大小编码的遗传差异，他们对于ANI的影响较小，但对表型的影响很大。因此，在物种内部发生小范围的ANI差异时，基因含量，SNVs和位点的测量值比ANI在定义生物学上相关的物种内变体方面能够提供更多的信息。

基因含量是基因组中所有基因的总和，包括核心基因和辅助基因。变体之间辅助基因含量的差异可能出现在单基因水平或遗传片段水平，其中可能包括多个基因。可以基于基因的存在与否或该基因的拷贝数来计算基因含量差异。基因顺序被归结在结构变异内，但尚未通过宏基因组学方法直接解决。通过寻找基因簇或通过将基因含量与SNV谱定义的突变体相关联的方式，宏基因组学数据可用于研究种内基因含量的变异。水平基因转移（HGT）使基因含量的相似性和系统发育之间的关系变得复杂化。但对同种基因组的比较研究表明，基于基因含量的成对相似性与基于核心基因组ANI的成对相似性之间具有相关性（图2b），并且不同的SNV图谱可以对应于不同的基因图谱。

SNV差异可用于比较高分辨率的同种变异体。这些比较可以考虑变体位置的数量，它们的具体位置（例如，在核心基因，辅助基因或基因间区域中），它们在基因组中的分布（聚集或分散）及其潜在的表型影响（例如，同义或非同义突变）。在宏基因组中，SNV可以基于MAG或基于预先存在的参考基因或基因组从头开始识别。基于MAG识别SNV可以揭示种群动态，但由于MAG参考的潜在质量低，也可能导致错误的出现。可以根据基于SNV独特存在的宏基因组学数据，可以通过数千个标志亚种或亚种群的SNVs但几十个SNVs中来定义同种基因组组分。分离数据已用于显示单个SNV差异可以确定表型，例如致病性或抗菌药物耐药性。当测序深度较浅且种群规模较大时，在微生物数据中检测低丰度SNV的能力将受到限制。当SNV可能已被垂直转移时，则可以将其用于定义单倍型和谱系。对于这种方法的衍生应用，SNV可用于重建物种内的系统发育。但是，必须注意使用不太可能位于HGT区域的基因座，例如管家基因。当一个染色体上存在多个遗传变异时，它们之间具有相关关联性。这种具有相互关联的遗传变异可以一起遗传，但基因重组或基因突变可以破坏这种遗传。确定等位基因之间的联系可用于追踪谱系，重建单倍型以及检测HGT。鸟枪法宏基因组学通常不提供具有相互联系的等位基因的确切概况，而通常只限于提供具有等位基因频率信息的多等位基因座集。如本综述的最后一节所述，这些对许多应用程序仍然有用。它们还可以用于执行物种的种群遗传分析，例如计算种群多样性，种群结构和选择压力，非同义和同义多态性的比率等方面。

目前已经开发了许多软件用于利用宏基因组学数据对物种内的多样性进行测量和分类。这些软件通常都是以分类和发现作为其目的导向。基于分类层面的工具包括metaMLST，PathoScope，MetaPhlAn2，StrainSifter，Sigma，SPARSE和StrainEst，旨在样本微生物中群内检测是否存在已知的已表征的物种（例如，靶标基因组，菌株的命名等）。基于发现层面的工具通常可以通过以下三种方法将种内变异分组为相似的簇：基因含量（例如PanPhlAn），整个或核心基因组中的SNV（例如metaSNV）以及标记基因中的SNV（例如Lineages算法），具体方法的选择可能与检测特定的基因含量有关。尽管许多工具可以提供应变级别下的分辨率（strain level resolution），但术语“strain”在不同软件中的定义有所不同。

虽然这些工具满足宏基因组学数据来探究物种内变异的诸多应用，但它们仍具有一些重要的局限性。例如，依赖于对参考基因组或标记基因作图工具固有地受到适当参考基因组可用性的限制，在某些环境下（例如淡水和土壤），参考基因组的利用率非常低。虽然可以通过构建和使用MAG来规避此限制，但是必须考虑到MAG的质量问题，尤其是在没有时间序列数据的情况下，仍需要仔细考量。这些选定的示例说明了随着宏基因组学领域向更大，更复杂的数据集发展的过程中，我们所使用的软件会产生不同程度的限制。这些限制的产生将导致某些工具难以或无法运行，或者无法与当前合理大小的数据集一起使用，从而无法再现结果或扩展结果。

1.6 基因分层的术语

有许多术语可以对物种内的变异进行分层（表1）。基于国际原核生物命名守则最常用和公认的术语，我们重点介绍了三个以涵盖物种内遗传变异的范围：基因组，品系和亚种（图2c）。在本节中，我们讨论在基于可培养微生物学和宏基因组学中使用这些术语时的冲突，并提出解决方案。

表1 用于分层或描述物种内变异的术语的定义。

几十年来，微生物基因组最常见的来源是分离株的测序。近来，由于MAG的快速产生，分离菌株的基因组测序已不再盛行。考虑到单细胞测序的兴起，将“基因组”限定在细胞层面，分离组株层面或宏基因组学层面是十分必要的。“菌株”一词在微生物学的各个领域得到了广泛使用，并具有许多相反的定义（图2a）。在细菌学中，“一个菌株由纯培养物中单一分离物的后代组成，并且通常由一个或多个最终源自初始单个菌落的培养物组成”。该定义是基于分类学上的菌株的定义，用于区分不同的菌株类型和培养物收集。在这种情况下，菌株的起源是孤立的。例如，在流行病学中使用的另一种定义将菌株识别为自然界中存在的实体。这种“天然菌株”被定义为一组具有独特的基因型或表型特征的同种分离株。可以将“分类菌株”视为自然菌株的分离培养样本。在操作上，天然菌株和分类菌株的界限各不相同。例如，分类菌株可以在表型上变得具有差异，尽管统一菌株可能具有三个突变体，但他们仍被称为同一菌株。相比之下，在某些情况下，分离株的至少存在三个SNV差异，才能被视为来自同一天然菌株。这表明在以培养为中心的微生物学中尚未普遍设定菌株描述的遗传阈值。

菌株的这两种定义，尤其是在以培养为中心的微生物学中继续共存，在微生物组学中采用该术语扩展了这种复杂性。很少使用带有歧义的前缀（“分类”和“天然”），但这种二元性可以阐明宏基因组学中术语“应变”的混合用法。应变级宏基因组学通常具有两种类型问题：分类和发现。分类问题询问遗传区段（测序读段）是否属于特定的分类学菌株，例如检测粪便样本中是否存在益生菌菌株Bifidobacterium bifidum BB12。发现问题询问物种内是否存在形成自然株的亚组，例如通过聚类基因组或遗传区段的遗传变异。由于对天然菌株使用了不同的定义，因此当采用宏基因组学手段对物种进行发现时会导致不同手段间产生可能会出现冲突，进而给出不同的结果。基于很强大的生物学基础的具有普适性和可操作性的菌株定义手段尚未建立，同时也可能不存在。从理论上讲，最少有一个SUV存在差异的基因组可以称为不同菌株。但是，由于从宏基因组学数据所提供的菌株数量难以控制，因此不建议使用此方法。对于多少个SNV定义一个单独的菌株以及是否需要在种群中固定这些SNV或需要影响其表型并没有具体的规则。在实践中，如何对这一临界值的选择进行设定要么隐含在菌株水平分析工具的选择中要么是由分析作者说设定。鉴于菌株的操作定义存在这种可变性，因此使用更具体的术语代替通用术语“菌株”变得特别有价值。

尽管这些术语的严格定义并不限制它们各自可以包含的相对变化量，实际上，将它们放在彼此的环境中并在建议的范围内使用是十分有用的（图2c）。由于这些范围是准则，因此在使用每个术语时，应在报告中包括组划定的实际阈值。值得注意的是“strain”从属于“subspecies”，因此不应被普遍用来指任何从属于物种的分组。由于定义不同，虽然在单词上来说“sub-species”与“subspecies”相似，因此我们也不鼓励将“sub-species”一词用于“below species”。相反，我们建议使用“infraspecific”或“within-species”一词。例如，将“strain-level analysis”或“subspecies analysis”的不当用法替换为“infraspecific analysis”或“within-speciesanalysis”。此外，物种内的非特定类别也可以称为“within-species variants”。

1.7 微生物群落中的表型分层

一个物种内的遗传变异可以以复杂的方式表现为表型差异。不同的遗传变异可以表现为相同的表型，而相同的遗传变异可以在不同条件下表现为不同的表型。遗传差异的大小及其表型影响也不一定相互关联，例如在抗生素耐药性急剧增加的情况下，只需少一个SNV即可。此外，当细菌分离或共培养或在其自然群落中培养时，可以观察到不同的表型。例如，Pseudomonas aeruginosa在体外和人感染期间具有不同的基因表达谱，这其中包括与抗生素抗性，细胞间通讯和代谢等方面。在种内也可以看到表型上的差异，例如，两株嗜盐细菌Salinibacter ruber的菌株在单独培养时具有相似的表达模式，而在共培养中则具有不同的表达模式。这些例子强调了直接在微生物群落中研究物种表型变异的重要性，这可以通过几种方法来完成；例如，环境转录组学已被用于揭示贻贝中同种共生体之间的功能多样性，利用宏基因组学所推断得出的复制率可以用于区分了婴儿中的Citrobacter koseri的亚种亚群。

基因型和表型之间的复杂关系意味着表型分类方案可能与遗传分层不一致。在医学和流行病学中，基于不同的致病性（病理型）或细胞表面抗原（血清型）将细菌进行分类是十分必要的。例如，E. coli菌群包括共生和致病菌株，它们被分为至少七个致病型。在生态学中，还可以基于行为及其在群落中的功能角色来定义群体，例如，根据所使用的资源类型和开发方式来定义群体。以这种方式分组的物种称为“guilds”，其概念和术语可类似地用于描述菌株组。此类分组旨在为分析生态系统内的竞争以及对整个群落的发现进行概括提供适当的解决方案。尽管表型与许多生物学问题都十分相关，但很难进行大规模测量。通过微生物基因组测序，基因型在高通量条件下更容易测量，但是由于表型会随生境和较小的基因型差异而急剧变化，因此将它们与表型联系起来十分困难。

2 种内变异的应用

物种内变异的许多尺度和维度反映了物种内调查可以解决的广泛的生物学问题。基于分离培养的方法已用于研究涉及种内变异的许多生物学问题。随着宏基因组学方法的兴起，现在可以以高通量为手段对同一相似的问题进行研究，也可以研究同一群落中的不同物种。本章节中，我们描述了基于分离培养的方法所开创的目前可以通过宏基因组学技术实现的许多重要微生物应用。我们将围绕关键生物学问题的五个主要主题总结了此类研究的常见示例（图3）。对于每个主题，我们总结了方法论方法和适当的术语，并提供了相关研究或软件的示例。

图3 物种内变异的应用。

2.1 源跟踪

样本中的细胞最初来自哪里？为了确定微生物细胞的传播或扩散方式，必须确定其确切来源。可以通过将目标细胞或种群的遗传物质与其潜在来源种群或祖先的遗传物质进行比较，计算出细胞从特定来源种群中扩散或成为特定来源种群的直接后代（图3a）。从宏基因组学数据确定源种群的策略包括检测共享的SNV，CRISPR信号或菌株特异性基因的存在以及基因组的重建。这些方法已用于实际的评价，例如，是否存在细菌细胞能够从人的口腔传播到肠道，从母亲传播到婴儿，从益生菌治疗传播到消费者，还是从粪便微生物组的捐赠者传播到受体。尽管沿袭跟踪方法可用于病原体源检测，但对于流行病学爆发分析可能不够。在源跟踪的情况下，可以用更具体的术语“strain”代替通用术语“lineage”，后者可以用单倍型来表征。从宏基因组学数据确定基因组单倍型仍然是一个挑战。但随着错误率的下降，单个DNA分子的长序列测序有望实现。

2.2 系统发育重建

该物种中变体的进化史是什么？在系统发育重建中（图3b），一个物种内多个谱系的相对祖先是从遗传相似性推断出来的。这种相似性可以基于完整的基因组或遗传区段（例如标记基因）。由于HGT和同源重组，将重建的系统发育可能会根据所选的基因座而有所不同，遗传区段的系统发育可能无法反映总体的基因组系统发育。或者，种内系统发育研究可能专注于重建物种内特定基因或质粒的历史。使用分离基因组的系统发育分析已得到很好的建立，并且如果回收了高质量的基因组，可以应用于微生物群落的研究。但是，在此之前必须考虑数据质量问题。另一种典型的方法是鉴定宏基因组中的同种同源基因片段，检测其中的SNV，然后推断其最可能的历史。可以基于系统发育来定义物种内的组，从而创建“系统型”。在这种情况下，一般术语“strain”可以用更具体的术语“clade”或“phylotype”代替。

2.3 遗传种群结构描述

该物种是否具有不同的亚种群或亚种？描述物种的遗传种群结构可以潜在推断其地理历史或解释与宿主疾病状态的异质关联。物种的种群结构可以通过将遗传数据与观察数据相叠加来确定，以描述种群内和种群间变体之间遗传相似性的分布。当在所观察到的物种变体中遗传相似性平滑分布时，就会出现均匀的结构。当祖先和姐妹进化枝种群存在时，即在树内几乎看不见（灭绝或无法检测）的分支时，就会发生这种情况（图3e）。相反，当遗传相似性之间存在不连续性时，会出现簇状结构，从而使进化枝可以分为不同的簇。这种不均匀的结构是由一棵进化树内绝种的分支所形成的（图3d）。这表现为亚群，是具有不同频率遗传变异的整个种群的子集。

通过寻找潜在亚群之间遗传相似性的聚类，宏基因组学可用于研究微生物群内物种的种群遗传学。检测亚种群对采样工作很敏感，因为遗传相似性的不连续性可能是由于未能观察到中间体而引起的。可以基于整个基因组中的SNV等位基因频率，标记基因中的SNV或基因含量差异来评估此类遗传相似性。当产生MAG或单个扩增的基因组时，也可以使用基于基因组的ANI聚类。MAG还可以用于追踪SNV和基因含量差异，例如湖泊细菌种群随时间的变化。在这种情况下，“strain”有时不恰当地用于指代一个或多个亚种。如果亚群体已经适应不同的生态位，那么他们可能代表了不同的生态型，例如，通过基因组范围的扫描，而不是基因特异性的扫描。

2.4 生态位推断

该物种内的变体是否适应了不同的条件？探究物种内变体及其生境可以提供有关其生态位特异性的信息（图3f）。当使用遗传数据推断出未描述的栖息地时，有时也称为“逆生态”。这通常旨在确定对于适应特定环境至关重要的遗传部分（例如，基因，操纵子或质粒）。这些部分的获取可能来自垂直或水平传播，因此可能与该物种的系统发育史形成鲜明对比。例如，由于在选择性条件下，例如在存在抗生素的情况下频繁发生HGT，基因可以在人群中迅速普及。使用宏基因组学数据研究这些问题的常用方法是查看已知已适应不同条件的同种亚群，然后确定特有的基因。在宏基因组关联研究中使用的方法也可以在该条件下进行研究，尽管这些方法通常不关注人群的适应性进化。在这种情况下，可以用更具体的术语“ecotypes”代替通用词“strain”。

2.5 分型

该物种变体是否属于先前描述的物种亚组？分型分析评估在同种物种变体中具有特定目的的遗传特征（例如SNV，基因，操纵子或质粒）的存在（图3c）。在这种情况下，不是根据进化史或栖息地范围来定义物种内部群体，而只是根据特定遗传特征的存在与否来定义。这样的特征可以赋予栖息地适应性，可以是短暂的，并且仅可以在罕见或人工条件下表达，例如抗微生物抗性基因，致病性基因或鞭毛。在这种情况下，HGT是主要考虑因素，因为其结果意味着遗传特征的存在并不一定反映系统发育。在这种情况下，“type”的一个例子是血清群，它们是物种内潜在的多系统群体，可以根据细胞表面抗原的存在来定义，从而可以对其进行流行病学分类。

宏基因组学方法可用于检测定义类型的遗传特征。可以基于参考序列检测已知或新颖的SNV。在宏基因组学中已经很好地确定了基于与参考序列同源性来检测类型定义基因的存在，但是由于群落中存在HGT的可能性，要确定这些检测到的基因是否存在于特定菌株中就更加困难。在宏基因组学数据中，无论有无组装基因组，均可直接研究HGT。

传统上，使用分离基因组方法或低分辨率分子方法对上述主题进行了研究。随着宏基因组学研究越来越多地创建大量数据，已经建立了数十种新方法来研究相同的问题，通常使用它们自己的新颖词汇。要考虑到这些新方法如何映射到它们要解决的基本生物学问题，并且该领域的研究历史将有助于控制术语的爆炸式增长。许多研究将包括上述主题的组合，但是单独考虑基本因素将有助于分解复杂的问题并选择最合适的方法和术语。

结论

尽管在微生物群调查中通常被认为是分辨率最高的分类类别，但物种可能包含极端的表型变异性。基于一些分离物的方法和有限的可培养细菌库，研究这种变异性的范围过去相对有限。随着宏基因组测序的发展，可用于研究的species的数量以及可使用方法的数量大大增加。根据许多标准以及在许多尺度上对物种内的变异进行分层的可能性也导致了日益增长且不十分精确的术语的产生。了解物种内部的变异性是如何产生的，并确定所要询问的核心生物学问题，有助于确定使用的正确术语和方法。在某些情况下，最合适的术语可能具有操作性定义，并且其详细信息和临界值可能因研究而异。为了促进沟通和协作，并允许将来进行比较性宏组学研究，应尽可能避免使用没有严格定义和广为人知的定义的词汇，或者根据所使用的标准和阈值明确描述这些词汇。本综述旨在指导此类描述，并支持对种基因组学数据进行更明智的物种内调查技术开发和应用。

你可能还喜欢

综述 | Nat. Rev. Microbiol：物种内的多样性：解释微生物组中的菌株

相关推荐