Nature Reviews Genetics | 基因组时代的系统发育树的构建

Part1Phylogenetic tree building in the genomic age

最近看了两篇杨子恒教授参与撰写的关于分子进化的综述,收获很大,今天先介绍最近的一篇,2020年发表在Nature Reviews Genetics上。另一篇是在2012年同样发表在Nature Reviews Genetics上。

Phylogenetic tree building in the genomic age
Molecular phylogenetics: principles and practice

Abstract

了解物种间的系统发育关系是生物学中许多研究的基础。准确的系统发育树是我们理解进化过程中的重要转变的基础,如新的身体构造或新陈代谢的出现,也是推断新基因的起源、检测分子适应性、理解形态特征进化和重建最近分化的物种数量变化的关键。尽管数据越来越丰富,强大的分析方法也越来越多,但可靠的树形构建仍然存在许多挑战。在此,本文章讨论了系统发育分析的主要步骤,包括直系同源基因或蛋白质的识别、多序列比对、替换模型的选择和推断方法。了解不同的错误来源和减少错误的策略对于组装一棵准确的生命树至关重要。

Introduction

有关活的(和已灭绝的)物种如何相互关联的知识是进化生物学的重要基础。了解物种之间的关系本身就是一个重要的目标,是我们进行系统发育分类的基础。生命树也是研究新表型的起源和生物进化过程的基本框架。将可遗传的特征状态(表型或基因型)映射到树上是不同的进化分析的基础:例如,它使我们能够对特征的同源性进行推断,也能深入了解特征的丧失和趋同进化。根据定义,两个分类群的同源性特征存在于它们共同的祖先中,使我们能够推断出这些祖先的特征。更广泛地说,特征比对使我们能够跟踪整个树上变化的特征状态,以重建进化的历史路径。树(和分子数据)也是进化过程拟合时间尺度的方法的基础,树也是用来确定进化过程趋势的比较方法的基础。

尽管早在亚里士多德和林奈的分类尝试中就已经预示了重建所有生命之间的关系,但这一努力是在19世纪达尔文学说的推动下开始的。虽然树最初在很大程度上是基于形态特征,但生物分子--核酸和蛋白质--为重建树提供了更强大和丰富的信息来源。自从DNA测序的发展和序列数据首次用于系统发育以来,我们对生命之树的理解已经发生了根本性的变化,并在达尔文对生命之树的认识上取得了重大进展。在实现达尔文的梦想,即 在对'自然界中每个界的非常真实的谱系树 '方面,已经取得了重大进展。

近二十年来,分子系统发育依赖于一个或几个基因的数据,通常使用PCR扩增和Sanger测序产生。新的测序技术的发展导致了包含基因数量的大型数据集,其数量增加了几个数量级。基因组和转录组测序的便利性和低成本也意味着可以考虑的分类群数量在大量增加,这体现在最近对地球上所有物种的基因组进行测序的提议上。重建生命之树的数据越来越多,但准确的树形重建并不是那么简单的。

在本综述中,涉及数百或数千个基因的系统发育流程(图1)的主要步骤(所谓的系统发育方法)。对于每一个步骤,概述各种方法的选择以及模型的复杂性和计算需求之间的一些相应的权衡。首先从一组基因组或转录组序列中确定直系同源基因(即其关系将可靠地反映物种关系的基因)。然后,讨论如何将来自不同物种的直系同源基因对齐,以考虑到基因插入和删除,以及修剪不可靠的对齐区域的策略。最后,详细讨论了树的推断方法和替换模型的选择,并考虑了潜在的错误以及识别、避免或减少错误的方法。

Generating databases of orthologous genes

在分子系统遗传学发展的最初几年,主要是利用一小部分通用直系同源基因进行研究,包括核糖体RNA的小亚基和大亚基(真核生物系统发育)以及线粒体基因组。rRNAs的广泛使用源于使用通用引物进行PCR扩增的简便性(与蛋白质编码基因不同,后者需要退火引物),这些通用基因之间的直系同源关系是明确的,并且存在一个关于这些序列的大型数据库。

近年来,高通量测序技术的发展意味着基因序列数据在序列数据库中非常丰富,而且新数据的产生也很便宜和容易。我们现在面临的数据收集的挑战是确保数据不受污染,确定能反映物种关系的直系同源基因,最好是选择那些不容易出现偏差的基因,这些偏差可能导致不准确的树。

Fig. 1 | Phylogenomic pipeline.

Data compilation and preparation

最初的基因序列数据可以来自基于基因组序列的基因预测(甚至是来自draft-quality的基因组)或来自由mRNA测序文库产生的转录组(图1a)。这个步骤的一个重要部分是识别和消除污染(无论是细菌、共生动物、寄生虫或肠道内容物,还是DNA提取后的交叉污染)(图1b)。在开始进行系统发育流程时,假定每个感兴趣的生物体都有基因序列。我们的最终目的是产生一个准确的物种关系树(物种树)。

Orthology predictions

如果两个基因是由一个祖先基因遗传而来,那么它们就是同源的(图2)。直系同源是一种特殊的同源关系,不同物种的基因由于物种的分化而相互分离。因此,直系同源基因再现了它们所衍生的物种之间的关系(图2b)。其他形式的同源性包括旁系同源(paralogy)和异同源(xenology),在旁系同源中,两个物种的基因来自于比两个物种的共同祖先更早的基因复制(图2c),在异同源中,一个物种的基因通过水平基因转移(HGT)来自于一个远缘物种。Paralogy和xenology不能反映物种之间的关系(图2c)。因此,确定直系同源基因是重建物种系统发育关系的一个重要步骤(图1c)。不同物种的基因复制和丢失是很常见的,甚至可能导致单拷贝基因之间旁系同源,给直系同源基因的鉴定带来挑战。

从头识别直系同源基因的方法主要分为两类(表1):基于树和基于图论。基于树的直系同源推断是通过同源序列比对和重建树来识别直系同源基因,以找到那些最可能是通过物种分化而不是通过基因复制或水平基因转移的同源基因。这些方法在概念上最接近直系同源基因的定义,但它们的计算成本很高,因为它们需要对整个基因家族进行比对和系统发育推断,而这些基因家族通常由数百个序列组成。由于系统发育信号被削弱(即多个突变积累导致同质化),系统性错误的风险增加,更大的分歧对基因树的推断构成更大的挑战。如果不考虑导致基因树不一致的其他过程,如不完全的谱系排序、水平基因转移、杂交、基因渗入和非等位基因转换,基因家族关系可能会进一步模糊。某些生物群体的特点是经常发生其中的一些过程,例如细菌中的HGT和植物中的杂交、基因组复制和多倍体,这使得它们更容易出现直系同源预测错误。

基于图论的直系同源推断方法依赖于这样的假设:一个物种中的基因与其直系同源基因的相似度应高于第二个物种中的任何其他基因,反之亦然。这种直系同源的概念产生了最流行的基于图论的方法,即 '双向最佳命中 '方法和随后的几种替代方法。所有这些方法都是基于All-against-All的序列比对,大多使用BLAST来定义序列的相似性。基于图论的方法也不能避免基于树的方法所存在的问题,但它们的优点是计算效率高,并且在大数据集上有很好的扩展性。

鉴于序列和基因进化的复杂性,从头预测的直系同源必然是近似的。令人鼓舞的是,基于这些程序的系统发育研究产生了一致和准确的系统发育。然而,直系同源预测的错误成为了系统发育问题中不一致的来源。替代从头预测的方法是使用一组参考的直系同源基因,并在新测序的物种中确定其共同的直系同源基因。一些专门的数据库提供了适合这一目的的直系同源序列,有些跨越了所有的生命领域,例如OrthoDB和OMA,有些则专注于特定的生物群体,如植物(Plaza)和哺乳动物(OrthoMam)。有几个流程可用于自动化这一程序,采用这一策略有两个好处。首先,它在计算上比从头预测要便宜,其次,它可以减少与不完整基因采样有关的错误。这在使用转录组数据时尤其重要,因为这些数据通常只包含基因的一个子集。数据的不完全性加上不同的基因损失,可能会增加在直系同源从头预测中对旁系同源的错误识别。使用基于高质量基因组数据的参考直系同源基因,通过确保感兴趣的基因群的完整性,将这种风险降到最低。

鉴于直系同源的鉴定和物种系统发育的推断是相互关联的,直系同源的假设也可以在一个物种基因组的相同直系同源部分进行检验。然而,大多数基因由多个结构域组成,随着时间的推移,它们的顺序和数量可能发生变化。在这种情况下,有人提出,结构域可能是更适合于直系同源的单位,因此也适合于系统发育推断。

Table 1 Features of different orthology prediction and sequence alignment programs
Fig. 2 | Distinguishing orthologous and paralogous relationships between genes.

Alignment and trimming

Sequence alignment

由于基因的插入和缺失(indels),基因和蛋白质在物种之间的长度通常是不同的,而且,即使具有相同长度的基因中,基因中同一位置的残基也不一定是同源的。识别跨基因的同源残基需要将基因对齐,通过在序列中增加gap,以便在最终的多序列比对中,比对的每一列中的残基应该来自同一个祖先的残基(图1d)。准确的比对是推断进化关系的基础,但对于经常出现差异的基因来说,这是一个具有挑战性的任务。当对准蛋白质编码的DNA序列时,核苷酸自然会演变成密码子三联体而不是单核苷酸。这一特性,以及氨基酸序列比相应的核苷酸变化得更少的事实,意味着在蛋白质水平而不是在DNA水平上的初始排列通常是合适的。然后,可以根据其相应的氨基酸对密码子三联体进行比对。

对齐方法可以分为三大类(表1)。最常用的方法是采用渐进法,包括Muscle、Clustal和MAFFT。这些方法首先对每对序列的相似程度做一个粗略的估计,并利用这些信息产生一个序列间关系的近似指导树。然后,它们通过首先对最相似的一对序列进行比对,并根据指导树逐步将关系较远的序列添加到这个固定的比对中,从而建立起比对。

其次是基于一致性的方法,包括T-Coffee、ProbCons和MAFFT的某些版本。最初,这些方法评估所有的成对排列,并为每个序列对保留一个备选的高分记录。随后,识别所有序列对之间一致性最大化的整体排列。基于一致性的方法速度较慢,但总体上比渐进式方法更准确。

最后,计算成本最高的是统计或基于进化的方法,如Bali-Phy和StatAlign。这些方法假定了一个明确的插入和缺失的进化模型,并在贝叶斯框架内共同推断出排列和与序列相关的树。统计学在方法学上是最合理的;然而,对于大的数据集,它可能会在计算上变得很苛刻。在这种情况下,使用性能良好的启发式方法,如PRANK和MAFFT,是一种合适的折衷办法。特别是对于较大的分歧,MAFFT的版本('MAFFT E-INS-i '和 'MAFFT L-INS-i')可能是实用的替代方法,它们分别考虑了长的内部或末端gap的可能性。

Filtering aligned putative orthologues.

任何直系同源识别程序都可能错误地将污染物、旁系同源或异同源识别为直系同源。这种错误可能会对系统发育推断的准确性产生影响,例如,产生较长的分支、有偏见的模型参数,甚至改变树的拓扑结构。为了尽量减少这种错误的来源,系统发育分析通常采用旨在识别离群序列的方法,通常采用基于BLAST的序列比较来测试最近的邻居与系统发育预期的兼容性(图1e)。例如,一个真正的昆虫直系同源关系,预计与来自两栖动物门的同源基因的相似性要高于与来自非两栖动物门的同源基因的相似性,如果不符合这样的假设,该序列就可以从数据集中删除。这些方法可以有效地进行数据净化,但它们通常需要对所涉及的分类群的系统发育关系有一定的了解。

有几个工具可以使这种基于BLAST的程序自动化,或者使用其他方法来检测离群点(例如Phylo-MCOA是基于多重共惯性分析)。也有一些工具旨在识别和消除具有可能与系统误差或低系统发育信息有关的特征的序列。最后,为了丰富可能由过于严格的直系同源预测产生的直系同源组(即导致许多假阴性),可以在更宽松的标准下使用基于参考的直系同源预测流程。

Alignment trimming

对齐质量随着序列分歧的增加而自然下降 。由于比对错误可能会影响随后的系统发育分析,因此过滤不明确的比对区域是很常见的(图1f)。过滤的依据可以是关于排列质量的特别标准,如胶结度和序列相似度,或者只保留对排列参数变化具有鲁棒性的排列位置。关于修剪排列序列对下游系统发育分析质量的影响的结果各不相同,因此修剪应谨慎使用。

Phylogenetic inference methods

Classification of phylogenetic inference methods

基于一组经过排列和修剪的直系同源基因,有两种方法可以得出物种树。首先,可以对每个基因排列进行独立分析,以提供树的估计值,然后将不同的树进行整合,以产生物种树的估计值。这就是所谓的超级树(super-tree)的方法。第二种方法,可以将排列好的基因串联成一个超级矩阵(supermatrix),通过分析产生一个全局的物种树的估计值。尽管我们讨论了在不同基因的谱系异质性背景下调和多基因树的方法(下文),但超级矩阵方法(图1g)是最常用的,也是本综述的主要内容。

系统发育的重建方法分为两类:基于距离和基于序列特征。距离法包括计算每一对物种之间的遗传距离(基于比较它们的排列序列),并使用所产生的距离矩阵迭代地构建一个树。最流行的距离方法是邻接(NJ)法。因为NJ并不在所有可能的树的巨大空间中寻找最佳的树(根据一定的标准),所以它在计算上非常有效。有一些NJ方法的实现或变体,以及能够产生几千个样本的系统发育的版本。然而,距离法对于远缘物种往往表现不佳,因为大的距离很难估计,而且距离法在定义成对距离时,将系统发育中物种间路径上的分支长度相加,从而加剧了这个问题。

Character- based phylogenetic inference methods

基于序列特征的方法包括最大简约法、最大似然法(ML)和贝叶斯推理法(BI)。最大简约法计算出使用每种可能的树形拓扑结构解释数据所需的核苷酸或氨基酸变化的最小数量。变化数量最少的树形拓扑结构被称为最大简约树,是对物种系统发育的估计。对于大的数据集,详尽地比较所有可能的树是不可能的(对于10个物种有8.2×10^21个可能的有根树),通常使用各种启发式的树搜索方法。最大简约法由于其数学上的简单性和计算效率而具有吸引力。然而,该方法涉及到对进化过程的明显不现实的隐含假设。由于该方法缺乏明确的模型,因此很难纳入序列进化过程中的众所周知的特征,如核苷酸之间的不同进化速率(例如,转换和颠换的不同速率)和位点之间的不同速率(例如,第三个密码子位置的速率高于第一个和第二个位置)。众所周知,简约法比似然法更容易出现系统性错误,包括长枝吸引(LBA)。然而,该方法对难以设计适当的特征进化模型的数据类型是有用的,如基于基因组重排的稀有事件特征或独特的形态特征。

Table 2 | Features of different tree reconstruction programs

与简约法不同的是,ML和BI方法都是基于一个明确的序列进化模型和似然函数。在一个以未知参数θ为参数的统计模型下,似然L(θ)是观察到的数据的概率,看作是θ的函数。这里,θ可能包括替换模型的参数和树上的分支长度。在系统发育学中,几乎所有的模型都假定排列中的不同位点或列是独立的;那么似然就是在不同位点观察到数据的概率的乘积。似然包含了数据中关于模型下未知参数的所有信息。换句话说,一个使观察到的数据看起来极有可能发生的参数值有望比一个使数据看起来几乎不可能发生的参数值更接近于事实。参数的ML估计是使可能性最大化的参数值。树估计的ML方法是由Felsenstein提出的,并在PAML、PhyML、RAxML-NG、IQ-Tree和FastTree等程序中得到了实现(表2)。对于每一棵树的拓扑结构,替代参数和分支长度都要进行优化,以达到最大的可能性,达到最高可能性的树拓扑结构就是ML树。

贝叶斯方法也依赖于一个明确的模型和似然函数。它与ML不同的是,它使用统计分布来量化参数的不确定性。在观察数据之前,先验分布被用来描述我们关于物种树和模型参数的先验信息。在收集和分析了数据之后,后验分布也是如此。后验是先验乘以似然,经过重新调整,使之成为一个适当的分布。因此,后验分布抓住了与数据中的参数有关的所有信息,是对先验分布的更新。

贝叶斯方法在20世纪90年代被引入分子系统遗传学,并已在MrBayes、RevBayes、BEAST1、BEAST2和PhyloBayes(表2)等程序中实现。贝叶斯系统发育学的计算是通过马尔科夫链蒙特卡洛(MCMC)算法实现的,这是一种计算机模拟算法,从树的拓扑结构和参数的后验中产生样本。在实践中,算法访问一个给定的树拓扑结构的频率是对该树的后验概率的估计。最大后验概率树(或MAP树)是我们对真实树的最佳估计。95%的可信树集包括总后验概率≥95%的最有可能的树;可信树集的解释是,鉴于数据和模型,该树集包括概率为95%的真树。

基于似然的方法,包括ML和BI,一个严重的缺点是对计算的要求很高,因为它们可能需要成千上万的CPU时间来运行;这对MCMC算法来说更是如此。对似然函数的表述需要明确说明有关序列进化的模型假设;这被一些人认为是一个缺点(因为所有的模型都是错误的)。然而。它意味着假设的模型可以被测试,它对分析的影响可以被评估,并且模型可以通过纳入进化过程的重要特征而被改进。事实上,系统发育统计学的大多数现代发展都是在似然框架下实现的。

Table 2 | Features of different tree reconstruction programs

Confidence in clades using the bootstrap

NJ树、简约树或ML树可以被认为是各自方法对真实系统发育的点估计。我们希望能像传统参数的置信区间那样,在点估计中附加一个置信度。为此,最常用的方法是自举法,由Felsenstein引进到系统发育学。这就产生了一些自举伪数据集(比如100个),其大小与通过重新抽样形成的原始数据集相同,并替换了排列点。伪数据集的分析方式与原始数据集的分析方式相同。对一棵树的自举支持率是该树在伪数据集中被推断出来的频率。自举法经常被用来给支系(而不是整棵树)附加支持值:支系的支持度是在基于自举法数据集的系统发育树重建之后恢复该支系的频率。与其他统计学应用中的自举法不同,系统发育自举法并没有公认的或直接的解释。

在距离法、简约法和ML法中,自举法被用于评估树的可信度。对于贝叶斯方法来说,树和支系的后验概率提供了自然的置信度,因此没有必要使用自举法。

在对系统发育数据集的分析中,一个常见的现象是,无论关系是否正确,引导值和后验支持值都非常高(接近100%)。这对于贝叶斯后验概率来说尤其明显。在系统发育规模的数据集中,随机误差变得不重要了,对不正确关系的这种强烈支持通常来自于系统误差。

我们现在回顾一下深层系统发育分析中最常见和最重要的错误来源。读者可以参考Felsenstein和Yang的更详细的讨论。

Accommodating phylogenetic errors

在系统发育分析中主要有两种错误。随机错误是由于数据集的规模有限(即排列中的位点数量有限),而系统错误是由于违反了方法中的模型假设。一般来说,当系统发育是在一个简单的序列进化的同质过程模型下推断出来的时候,就会出现系统误差(假设特征状态之间、位点或基因之间、跨类群或时间的进化率是同质的),而实际上,这个过程是异质的。近年来,序列数据的爆炸性积累意味着系统发育分析中的随机误差已大大减少,但系统误差实际上随着更长的排列而增加。

Heterogeneity of rates across taxa and long- branch attraction

LBA也许是影响系统发育重建的最已知的系统误差。LBA错误的根源是不同种系的进化速率不相等;由此产生的每个种系预期变化量的差异在树上表现为长枝(高度分化的序列)和短枝(分化较小的序列)。LBA表现为树上长枝的不正确分组,但实际上是相距甚远的分支(图3)。两个不相关的长分支可能偶尔会出现相同的替换。简约法会将这些趋同点重建为从共同祖先那里继承的同源共享特征。似然法(ML和BI)对LBA错误比简约法更稳健,因为它们能意识到分支的长度,因此考虑到两个长分支上收敛的可能性增加。然而,如果假设的替代模型不正确或过于简单,如错误地假设各位点的进化速率相同,那么ML和BI也会受到LBA的影响。

在经验数据集中,LBA可能难以识别。它的现象包括两个或多个快速进化的种系组合在一起,或者一个长支类群加入一个遥远的外群。因此,通过替换模型的变化来评估这种关系的鲁棒性是很重要的。

已经有一些特别的策略来减少潜在的LBA伪象,如排除进化速率非常高的有问题的物种,去除进化速率非常高的基因或基因区域(这些基因的排列质量也很差),以及增加一些物种,以打破树上的长分支。最近,对分支长度异质性的测量被用来识别那些看起来进化速率异质性较低的基因,因此被认为不太容易受到LBA的影响。类似的,有一些方法用于识别和去除单个基因树上的长枝,从而降低进化速率异质性。

Fig. 3 | Heterogeneous rates across lineages and long-branch attraction

Heterogeneity of nucleotide or amino acid compositions across taxa (compositional bias)

大多数系统发育推断模型假定,在所研究的物种的整个历史中,替换过程是稳定的,因此所有物种都有相同的4个核苷酸或20个氨基酸的替换频率。在分析远缘物种时,这种组成上的同质性假设经常被推翻;一个明显的例子是当远缘分类群独立进化出富含A/T的基因组时。在这种情况下,同质性模型的假设将倾向于人为地将具有类似碱基组成的物种分组。

Compositional homogeneity:组成上的同质性,系统发育中各种系的核苷酸或氨基酸频率的同质性。

处理成分偏差的最佳方法是放宽成分同质性的假设,允许特征状态频率参数在系统发育过程中漂移。这种模型涉及到树上每个分支的一组频率参数,产生大量的参数,计算成本很高。

规避这个问题的一个更实用的方法是识别并从分析中去除显示成分偏差的基因或分类群。有几种衡量成分偏差的方法(p4、IQ-Tree 和PhyloBayes)。然而,如果偏差最大的类群是关注的核心类群,或者大多数基因不能通过同质性测试,则不可能删除基因或类群。

有人提出的最后一种方法是聚合特征状态 。例如,4种核苷酸可以被重新编码为嘌呤(A和G)和嘧啶(C和T),从而消除任何AT的偏向。同样,20个氨基酸也被重新编码为一个缩小的集合,根据它们的互换性进行分组,在一个替代矩阵中表示120。重新编码自然会导致信息损失,这本身就可能导致拓扑结构的变化。然而,当数据被重新编码时,检查成分不同的类群的位置如何变化是很有意义的。

Heterogeneity of rates across sites

基因组的不同位点以不同的速度进化。胶原蛋白比组蛋白变化得更快,内含子比外显子变化得更快,密码子的第三个位置比第一和第二个位置变化得更快,蛋白质中的一些氨基酸处于强烈的稳定选择之下,而另一些则可以自由变化;最终,假设一个基因的各个部分的速进化率是不变的是不现实的。假设一个单一的(平均)速率会导致系统地低估具有较高速率的位点发生变化的可能性。正如我们所看到的,低估变化的可能性(从而低估趋同进化的概率)往往会加剧LBA。为了适应这种位点间的速率变化,Yang提出将位点的进化速率建模为一个遵循伽马分布的随机变量(图4a)。由此产生的模型用后缀 ' Γ '或 ' G '表示,并可与任何核苷酸或氨基酸替代模型(如 'JC69 Γ'、'GTR Γ '或 'LG Γ')相结合。在所有的系统发育推断和模型选择工具中都采用了这种考虑位点间进化速率异质性的策略。适应位点间速率变化的替代模型包括自由速率模型(假定有几个离散的速率类别)和伽马混合模型(假定有两个伽马分布的混合物)。除了排列中不同位点的异质性外,替换速率和过程也会随着时间的推移而变化,也许反映了不同类群中蛋白质的结构和功能变化。因此,在一个系统发育的不同种系中,某个位点的替代速率和模式可能会有很大的不同(图5);这种现象被称为 '异质性 ',目前处理这种现象的方法在计算上只对非常小的数据集进行树形搜索或对较大的数据集进行单树比较是可行的。

Fig. 4 | Heterogeneous substitution rates and patterns across sites.

Heterogeneity of substitution patterns across sites partition and mixture models

在系统发育学中使用的马尔可夫模型中很容易容纳不同类型替代的不同速率。例如,转换和颠换可以被赋予不同的速率,使用两个参数。一般的时间可逆模型假定所有的核苷酸以不同的频率出现(即三个自由模型参数),并以不同的速率相互改变(即六个可替换性参数)。

对于20个氨基酸,一般时间可逆模型将涉及209个参数(19个频率和190个可替换性)。这个模型参数丰富,但可以适应中等规模的数据集 。然而,在树形搜索过程中估计这么多的参数,计算成本很高。取而代之的是更多地使用从数百或数千条蛋白质序列分析中得到的经验氨基酸模型,包括Dayhoff、JTT、WAG和LG。还根据特定的蛋白质子集(例如病毒、叶绿体和线粒体)计算了经验模型;不同的基因将适合不同的模型。

系统发育研究的通常做法是将所有基因串联成一个超级基因,从中推断出一棵树。然而,基因在进化的速度和过程中可能有所不同。基因之间的这种差异可以通过分区模型来解决,该模型构建了具有不同参数的分区,如同一分区的位点具有共同的进化特征和参数,而不同的分区具有不同的参数。分区模型通过对速率和替换模式的大规模异质性进行计算,提供了一种减少模型错误指定的方法。

在一个有几百个基因和几十个模型可供选择的数据集中,给基因分配模型或构建一个分区策略并不简单。自动化的模型选择方法通常假设一个固定的树形拓扑结构,并试图通过改变每个基因的替换模型来最大化数据的可能性。一些工具将模型选择过程与替代分区方案的评估结合起来,在这种情况下,适合相同模型的基因被合并到一个更大的分区中。对于大的数据集,分区选择和模型优化的组合任务在计算上是很密集的。然而,在不同的替换方案下,使用经验数据进行系统发育推断,可能会导致拓扑结构、分支长度和统计支持的差异。模拟表明,优化的分区方案与基于生物常识的分区(如按基因或按密码子)相似,两种方法都大大优于未分区的数据。

Mixture models

混合模型也可以适应替换速率和模式的位点间的异质性(图4)。在混合模型中,该模型不是将每个位点分配到一个特定的分区,而是将一个位点的总体可能分配到位点类别中。上面讨论的位点间可变速率的伽马模型是一个典型的混合模型。当有生物知识可以将位点分配到明确的分区时(例如,将一个基因的位点分配到三个密码子的位置),使用分区模型是很自然的;当缺乏这种知识时,混合模型提供了一个灵活的选择。

在分析蛋白质数据时,蛋白质的不同部分可能有非常不同的替换率,以及对不同氨基酸的偏好是由局部的选择压力决定的。一刀切的经验替代矩阵或甚至分区方法都不可能捕捉到进化过程中的这些微妙之处。因此,混合模型可能是适应氨基酸替换的速度和模式的位点间异质性的自然方法。混合模型比分区模型需要更多的计算,因为在不知道每个位点是来自哪个成分的情况下,我们必须在似然计算中对整体成分进行平均计算(图6)。

混合模型可用于解释替换率和替换模式的位点异质性。该模型可以假设多个替换矩阵或多套氨基酸频率。轮廓混合模型使用多个成分,这些成分在20个氨基酸的频率上有所不同,同时假设它们之间有一套单一的交换率。例如,C10-C60经验模型包括从已知蛋白质序列中经验估计的氨基酸频率。这些模型在贝叶斯和ML框架中都有实现。在PhyloBayes中实现的'CAT'(类别)模型,是概况模型的最广泛的概括。CAT模型将混合物成分视为自由参数,并从数据中估计氨基酸频率和混合比例(图4b)。重要的是,CAT模型和其他混合模型在分析远缘物种时,似乎不容易低估分支长度,对LBA错误的反应也比位点均一的模型更有力。

Fig. 6 | Homogeneous partition and mixture models.

Genealogical heterogeneity across genes

将所有的基因串联成一个超级矩阵并推断出一个单一的树,假设有一个单一的基因树包括所有的基因,并且它与物种树相对应。然而,由于多种生物过程--如祖先物种的多态性、基因复制和丢失以及水平基因转移,不同的基因或蛋白质可能有不同的历史或基因树。

祖先多态性意味着,当我们向后追踪其历史时,来自不同物种的直系同源基因可能不会在到达共同的祖先物种时就合并在一起;因此,基因可能不遵循物种系统发育,可能具有与物种树不同的树拓扑结构(图7)。这种现象被称为不完全系谱排序(ILS)、深度合并或基因-物种-树的不一致。如果物种树的内部分支较短,且祖先物种有较大的种群规模,则更有可能发生这种不协调现象。即使分析方法忽略了ILS,物种树中长的内部分支所代表的系统发育关系也很有可能被解决。然而,对于那些通过辐射性物种演化过程产生的物种(在物种树中产生短的内部分支),ILS可能对物种树的估计构成严重的挑战。

适应ILS的框架是多物种合并(MSC)模型,是单种群合并在多物种情况下的扩展。在MSC模型下,由于祖先物种的合并过程,基因树(拓扑结构和分支长度)在基因或基因组区域之间变化:它们有一个由物种树和诸如物种分化时间和种群大小等参数指定的统计分布。因此,MSC过程是繁殖和遗传漂移的一个自然结果。简单的MSC模型已被扩展到包括跨物种的基因流,产生如MSC与迁移(隔离与迁移或IM模型)和MSC与内收(MSCi或多物种网络合并或MSNC模型)。

纳入MSC模型的物种树方法主要有两类。摘要或两步法使用系统发育程序来推断单个基因位点的基因树,然后使用估计的基因树作为数据来构建物种树。流行的两步程序包括ASTRAL和MP-EST。这些方法计算效率高,可以分析成千上万的基因,但在重建基因树时可能会出现错误。

相比之下,完全似然法计算的是序列排列的似然性,因此可以容纳基因树的不确定性。常用的实现MSC模型的程序包括BEAST和BPP;两者都是MCMC算法,涉及大量的计算,尽管算法的改进使其有可能分析10,000个基因座的数据集。

对模拟和经验数据的分析表明,完全似然法优于近似合并法和串联法。一些基于合并的方法已经在相对较浅的分歧中得到了应用和评估,但是这些方法在重建深层系统发育中的有效性还不太清楚。然而,ILS的根本原因是物种树的内部分支较短,而不是节点的浅薄:深层系统发育与浅层系统发育一样受到ILS的影响。预计,在未来的几年里,将有很多人努力评估和克服ILS对生命树深层部分的影响。

Fig. 7 | Gene-tree–species-tree incongruence.

Conclusions and perspectives

本文章讨论了准确建树的系统发育流程,从仔细的数据汇总,包括直系同源基因鉴定和避免污染,通过多序列比对,到选择树的重建方法和替换模型,以避免系统发育重建中的系统性错误。对于具有挑战性的系统发育--特别是涉及遥远物种的深层系统发育--选择基于似然的方法和选择适当的模型以适应不同位点、分类群和时间的分子进化过程中的异质性(图3,4,5)似乎与基础数据的产生同样重要。

到目前为止,有一种方法很少受到关注,那就是开发可计算的模型,以适应各支系的异质性。除了组成上的偏差,氨基酸交换率也被认为在整个生命树上是变化的。到目前为止,为解决这一问题所采取的策略是删除数据(分类群或基因)或试图减少其他相关问题,如位点间的异质性。尽管如此,直接对树的异质性进行建模应该可以提供更准确的树的估计。

物种辐射和由此产生的物种系统发育中的短分支是解决生命树的许多挑战的原因。这对于深层的物种辐射来说尤是如此(动物界的例子包括哺乳动物和鸟类的分化,以及冠轮动物中的螺旋形裂隙植物群)。在深层辐射中,ILS的问题由于末端分支上的替换饱和导致的系统发育信号的侵蚀而变得更加严重。当分子钟被严重违反时,MSC方法在深度分化中的表现需要仔细研究。最近的工作表明,现有的近似方法可能容易受到LBA错误的影响,因此需要研究评估在宽松的时钟模型下的合并方法在推断深度分化中的表现。

Glossary

Homologous(同源性):当包括形态特征和基因位点在内的特征从一个共同的祖先继承下来时,例如,两个物种中的一个基因来源于一个祖先的基因。

Orthologous(直系同源):由于物种分化事件而产生的同源序列。

Substitution models(替换模型):描述核苷酸或氨基酸之间随进化时间变化的连续时间马尔可夫链概率模型。

Species tree(物种树):一组物种的系统发育树,它是单个基因座的基因树的基础。

Paralogy(旁系同源):由于复制事件而产生分歧的同源序列,因此在一个生物体的历史上,两个旁系同源基因都是一起遗传的。

Xenology(异同源):源于水平基因转移的同源序列(也称为横向基因转移)。

Alignment(对齐):在同源序列中插入空隙,使同列的核苷酸或氨基酸同源。

Gene tree(基因树):基因位点或基因组区域序列的系统发育或谱系树。

Systematic errors(系统性错误):由于不正确的模型假设造成的误差。

Incomplete lineage sorting(不完全的谱系排序):由于祖先的多态性,基因树与物种树不一致。

Topology(拓扑学):系统发育树的分支模式,表明分类群之间的关系。

Long-branch attraction(长枝吸引):推断出一棵错误的树的现象,其中具有长枝的分类群被归类在一起。

Clades(支系):支系是树上的一组分类群,包括它们最近的共同祖先和所有的后代,也被称为单系群。

Stochastic errors(随机误差):由于对齐序列中的序列长度有限而产生的误差。

Homogeneous-process model(同质过程模型):假设在不同的位点、分类群和时间内有相同的替换速率或过程的模型。

Compositional homogeneity(组成同质性):系统发育中各谱系的核苷酸或氨基酸组成频率的同质性。

Mixture models(混合模型):假设不同位点的替代速率或过程不同的模型。

Profile mixture models(轮廓混合模型):假设位点有多套状态频率的模型(例如,CAT、C10-C60)。

Coalescence(合并):当回溯一个样本序列的历史时,种系连接的过程。

Genetic drift(遗传漂变):由于繁殖的随机性,等位基因频率在不同代中随机变化的过程。

Reference

https://doi.org/10.1038/s41576-020-0233-0

(0)

相关推荐