进化树的 “再现性危机”

2024-07-28 21:01:02

\\ 进化树 //

你所描绘的演化故事究竟是正史还是野史呢？生物学中，系统树能够模拟基因、物种间的亲缘关系。这也是分类学、演化生物学、基因组学等领域探索真相的关键。因此，系统树的准确度也决定了以上的研究结论是否可信。

系统进化树对于物种进化故事的推断有着近乎决定性的作用 | www.khanacademy.org

在科研中，研究结果的可重复性和可再现性是如基石般的存在。但在某些研究中，往往存在难以重复的结果，这种现象可称为 'the reproducibility crisis'，即 “可复现性危机”。

系统树的可复现性究竟如何呢？

通常来说，系统进化树结果的不一致有以下两类常见原因：

1）系统进化关系标记：不同基因的集合、核与质体来源的不同基因或标记，可能会获得不同的系统进化树。如若支持率很高，则暗示潜在存在ILS、杂交起源等。

2）数据方法的不同：选取样品的偏好，构建方法（例如最大似然法、最大简约法以及贝叶斯法等）的不同。在标记信息位点不足的情况下则尤为明显。

但是否存在以上问题均考虑到，依然在不同的运行中得到不同的结果呢？

答案是肯定的。其实系统树构建结果不可重复的问题，在2013年就有所提及。当时一项大规模的研究重复了大量已发表的系统进化树研究工作，其中大约有83.3%（6277 / 7539）的系统进化树的构建结果是无法重复的。这些不可重复，也许是研究数据与参数的不完全公开所造成的。

7年过后，随着网络数据库（例如常见的Dryad和FigShare等）日渐丰富，学术期刊对于数据上传的要求愈发严格，研究者更容易获取到一项研究中所涉及的序列比对、系统发育矩阵以及软件的参数信息。但即使如此，仍然有很多构建系统发育树所需的参数并未知晓，树初始构建所需要的随机起始种子（random starting seed）就是其中一项。事实上，在使用同样的数据、软件和参数的基础上，系统树的“可复现性危机”依然存在。

基于Espeland et al. 2018 年的数据构建的系统发育关系，相同的数据、软件和参数均得到了不同的结果，分支数字为支持率，未标注为100 | 图自 Xing-Xing Shen

更为扎心的是，简约信息位点的数量，分支的支持率、所使用的CPU数量、集群情况——这些信息对于系统发育树复现与否的影响，都还是未知的。这些差异是否会导致不可重复的系统发育树？什么原因导致不可重复的系统发育树? 如何规避不可重复危机？这一系列问题的解决，将有利于提高系统发育树的再现性，同时为系统发育学软件开发者提供重要的指导依据。

近期，来自浙江大学农业与生物技术学院以及美国范德堡大学的研究团队，在《自然·通讯》杂志上发表的研究，收集了来自于15个动物、植物、真菌系统发育研究中总共19,414个基因比对数据，以探究不同因素对于系统进化树构建的影响。

这些数据集中包含了非编码DNA (DNA)、外显子(DNA)、氨基酸（AA）三类。对于这些数据集，研究者检验了常用系统发育树构建软件IQ-TREE和RAxML-NG可重复性。针对单个基因，基于完全相同的参数进行了两次计算（Run1和Run2）（其中的随机起始数字相同），并比较这两次计算所产生的系统发育树是否一致。

系统进化树可复现性评估的流程图 | Shen et al., 2020

分析结果发现，在不同的数据集中，IQ-TREE和RAxML-NG分别有81.9%和90.7%的系统发育树是可重复的。而比较IQ-TREE和RAxML-NG之间，系统进化树的可重复率甚至低至20.3%。利用UCE、AHE等捕获技术收集的数据存在更高比例的不可重复性。

不同数据集中，IQ-TREE与RAxML-NG分别构建的系统树中均存在不可重复的现象 | Shen et al., 2020

相同的数据集中，基于IQ-TREE与RAxML-NG的系统进化树构建的复现率仅为20.3% | Shen et al., 2020

更有趣的是，除了基本必备的参数（如基因、软件信息、替换模型、树搜索的数量），处理器类型、线程数量和随机起始数的信息同时也会影响系统树构建的结果。

不同处理器、线程数以及随机种子对系统树构建的复现情况 | Shen et al., 2020

可以看到，在输入数据、使用软件、参数、随机种子、线程数以及处理器任一指标的改变，均可能导致不可复现的情况出现。而在以上均一致的情况下，系统发育树的复现率达到了百分之百。这也说明，影响系统发育树构建的因素，比我们了解的要多。

那么，在今后的研究中，我们保证研究工作中的系统发育树是可被他人重复的呢？

考虑到系统发育基因组数据集中存在的成百上千个基因，因此公布每个分析的日志文件是目前最为全面的方法。由于日志文件包含所有关键参数（例如基因名、程序名、树搜索的数量、替代模型、处理器类型、线程数量和随机起始数)，今后的研究者亦可回溯已发表工作原先的分析结果，亦或分析可能产生不一致结果的原因。

当然，碍于很多源自主观与客观的因素，很多系统进化树构建的研究场合下，难以控制所有影响因素。或者说，可能对于一些确切的研究结果而言，这些因素的调整或许影响也不大。但任何使用系统进化树工具的研究者，都需要留意有此种现象的存在，避免仅根据系统进化树就得出一些也许武断的结论。

图自 Xing-Xing Shen

浙江大学农业与生物技术学院沈星星研究员为论文第一作者兼共同通讯作者，美国范德堡大学Antonis Rokas教授为共同通讯作者。特别值得一提是浙江大学陈学新教授给予大力支持和悉心指导。另外，范德堡大学和威斯康星大学麦迪逊分校的李远宁博士后、Chris Hittinger教授也参与了该研究。

原文链接：https://www.nature.com/articles/s41467-020-20005-6

沈星星课题组主页：https://shenxlab.com/

参考资料

Shen X X, Li Y, Hittinger C T, et al. An investigation of irreproducibility in maximum likelihood phylogenetic inference[J]. Nature Communications, 2020, 11(1): 1-14.

图文 | Jerry

校对 | 沈星星

科研 | 复旦大学：127个基因组和转录组揭示葫芦科系统发育进程（国人佳作）

编译:YQ,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读形态变异是物种进化过程响应环境变化的对策.例如被子植物广泛进化的沿树干生长的攀爬习性,从而在空间竞争(植物遮阴的不利条件)下获取光合 ...
JSE | 大数据与莎草科的系统和进化

[编者按]在特约编辑Pedro Jiménez‐Mejías和Isabel Larridon的精心组织下,历时一年又四个月,JSE莎草科专辑于近日问世.作为环球薹草研究组(Global Carex G ...
忍冬科新亚科六道木亚科（Zabelioideae）的发表

物种分化过程是一个长时间尺度的变化过程,这个时间尺度通常以百万年为计量单位.在如此漫长的进化时间尺度下,发生在祖先支系之间的.古老的基因流信号时常会被湮没或被人为地忽略.早期的进化生物学家认为种间基因 ...
分子钟校正进化树发方法简述

分子钟是使用生物分子的突变率来推论两个或多个生命形式不同时的史前时间.用于这种计算的生物分子数据通常是DNA,RNA的核苷酸序列或蛋白质的氨基酸序列.确定突变率的基准通常是化石或考古年代.分子时钟只能 ...
对新冠病毒核酸序列构建系统进化树

今天在群里看到一个提问,很有趣,好像是有一个网页工具可以把fastq格式转为phylip格式.我虽然没有使用过这个软件,但是我觉得这个提问,可能是忽略了计算过程,直接说结果.应该是问题本身就错误的. ...
Nature Comm | 进化树“再现性危机”！新研究发现系统发育树存在9% -18%的不可重复性...

近日,浙江大学农业与生物技术学院沈星星研究员.陈学新教授以及美国范德堡大学Antonis Rokas教授课题组联合在Nature Communications发表题为An investigation ...
比尔·盖茨向全球发出警告：另一场危机正在逼近，无人能幸免

说起比尔盖茨,很多人第一反应就是微软.世界首富. 但其实他还是一位让无数人膜拜的"神级"预言家. 不知道大家有没看过比尔盖茨90年代写的两本书,名叫<未来时速-数字系统与商务 ...
危机时期管理业务的7种方法

对于我们所有人来说,疫情是不确定的时期,现金流量很少的小型企业主尤其感到紧缩.为了帮助你确定如何在诸如冠状病毒等危机时期管理业务,我们与世界领先的管理专家进行沟通,以下是一些要点,Azides博士为你 ...
婚姻出现危机，八字分析婚姻能否白头到老

经常吵架,老公对我不是很好,婚姻出现危机,本我看看我的婚姻能否白头到老,以后婚姻走势. 卜广鉴老师分析如下: 坤造:壬戌.辛亥.戊午.乙卯:女命,目前走戊申运:日主戊土生在亥月不得力助,年干壬水.月柱 ...
年轻人不“啃老”，父母却要“粘小”？第一代独生子女赡养危机来临

越来越多的空巢老人呼唤"鹰还巢",新的"粘小"趋势来临,应该怎么办? "啃老族"是舶来品,它的前身叫"袋鼠族",形容 ...
美财长警告：美国政府举债能力即将耗尽，后面的危机恐更可怕

美财长警告：美国政府举债能力即将耗尽，后面的危机恐更可怕
全球粮食危机带来的思考

根据全球应对粮食危机网络发布的年度报告显示,全球面临重度粮食不安全的人数在2020年达到过去五年的最高水平.2020年,55个国家和地区的至少1.55亿人陷入危机级别或更为严重的重度粮食不安全状况.全 ...
13000名女性体检数据背后隐藏了哪些健康危机？

自广受关注的草莓医院99元健康体检活动启动以来,总有13000多人通过多种渠道购买体检套餐.在已完成体检的大数据样本中,90%以上有异常结果检出(含妇科炎症在内),需要定期复查和评估. 这些数据背后, ...
注意力危机来袭：放下手机，立地成佛

绿色静物(Nature morte verte) 巴勃罗·鲁伊斯·毕加索1914 开放报名:发圈训练营.写作训练营.意念植入发圈心法训练营.教学模式:VIP 1对1学徒制. 为了保证教学效果,每月名 ...

进化树的 “再现性危机”

相关推荐