进化树的 “再现性危机”

\\ 进化树 //
你所描绘的演化故事究竟是正史还是野史呢?生物学中,系统树能够模拟基因、物种间的亲缘关系。这也是分类学、演化生物学、基因组学等领域探索真相的关键。因此,系统树的准确度也决定了以上的研究结论是否可信。
系统进化树对于物种进化故事的推断有着近乎决定性的作用 | www.khanacademy.org
在科研中,研究结果的可重复性和可再现性是如基石般的存在。但在某些研究中,往往存在难以重复的结果,这种现象可称为 'the reproducibility crisis',即 “可复现性危机”
系统树的可复现性究竟如何呢?
通常来说,系统进化树结果的不一致有以下两类常见原因:
1)系统进化关系标记:不同基因的集合、核与质体来源的不同基因或标记,可能会获得不同的系统进化树。如若支持率很高,则暗示潜在存在ILS、杂交起源等。
2)数据方法的不同:选取样品的偏好,构建方法(例如最大似然法、最大简约法以及贝叶斯法等)的不同。在标记信息位点不足的情况下则尤为明显。
但是否存在以上问题均考虑到,依然在不同的运行中得到不同的结果呢?
答案是肯定的。其实系统树构建结果不可重复的问题,在2013年就有所提及。当时一项大规模的研究重复了大量已发表的系统进化树研究工作,其中大约有83.3%(6277 / 7539)的系统进化树的构建结果是无法重复的。这些不可重复,也许是研究数据与参数的不完全公开所造成的。
7年过后,随着网络数据库(例如常见的DryadFigShare等)日渐丰富,学术期刊对于数据上传的要求愈发严格,研究者更容易获取到一项研究中所涉及的序列比对、系统发育矩阵以及软件的参数信息。但即使如此,仍然有很多构建系统发育树所需的参数并未知晓,树初始构建所需要的随机起始种子(random starting seed)就是其中一项。事实上,在使用同样的数据、软件和参数的基础上,系统树的“可复现性危机”依然存在。
基于Espeland et al. 2018 年的数据构建的系统发育关系,相同的数据、软件和参数均得到了不同的结果,分支数字为支持率,未标注为100 | 图自 Xing-Xing Shen
更为扎心的是,简约信息位点的数量,分支的支持率、所使用的CPU数量、集群情况——这些信息对于系统发育树复现与否的影响,都还是未知的。这些差异是否会导致不可重复的系统发育树?什么原因导致不可重复的系统发育树? 如何规避不可重复危机?这一系列问题的解决,将有利于提高系统发育树的再现性,同时为系统发育学软件开发者提供重要的指导依据。
近期,来自浙江大学农业与生物技术学院以及美国范德堡大学的研究团队,在《自然·通讯》杂志上发表的研究,收集了来自于15个动物、植物、真菌系统发育研究中总共19,414个基因比对数据,以探究不同因素对于系统进化树构建的影响。
这些数据集中包含了非编码DNA (DNA)、外显子(DNA)、氨基酸(AA)三类。对于这些数据集,研究者检验了常用系统发育树构建软件IQ-TREE和RAxML-NG可重复性。针对单个基因,基于完全相同的参数进行了两次计算(Run1和Run2)(其中的随机起始数字相同),并比较这两次计算所产生的系统发育树是否一致。
系统进化树可复现性评估的流程图 | Shen et al., 2020
分析结果发现,在不同的数据集中,IQ-TREE和RAxML-NG分别有81.9%和90.7%的系统发育树是可重复的。而比较IQ-TREE和RAxML-NG之间,系统进化树的可重复率甚至低至20.3%。利用UCE、AHE等捕获技术收集的数据存在更高比例的不可重复性。
不同数据集中,IQ-TREE与RAxML-NG分别构建的系统树中均存在不可重复的现象 | Shen et al., 2020
相同的数据集中,基于IQ-TREE与RAxML-NG的系统进化树构建的复现率仅为20.3% | Shen et al., 2020
更有趣的是,除了基本必备的参数(如基因、软件信息、替换模型、树搜索的数量),处理器类型、线程数量和随机起始数的信息同时也会影响系统树构建的结果。
不同处理器、线程数以及随机种子对系统树构建的复现情况 | Shen et al., 2020
可以看到,在输入数据、使用软件、参数、随机种子、线程数以及处理器任一指标的改变,均可能导致不可复现的情况出现。而在以上均一致的情况下,系统发育树的复现率达到了百分之百。这也说明,影响系统发育树构建的因素,比我们了解的要多。
那么,在今后的研究中,我们保证研究工作中的系统发育树是可被他人重复的呢?
考虑到系统发育基因组数据集中存在的成百上千个基因,因此公布每个分析的日志文件是目前最为全面的方法。由于日志文件包含所有关键参数 (例如基因名、程序名、树搜索的数量、替代模型、处理器类型、线程数量和随机起始数),今后的研究者亦可回溯已发表工作原先的分析结果,亦或分析可能产生不一致结果的原因。
当然,碍于很多源自主观与客观的因素,很多系统进化树构建的研究场合下,难以控制所有影响因素。或者说,可能对于一些确切的研究结果而言,这些因素的调整或许影响也不大。但任何使用系统进化树工具的研究者,都需要留意有此种现象的存在,避免仅根据系统进化树就得出一些也许武断的结论。
图自 Xing-Xing Shen

浙江大学农业与生物技术学院沈星星研究员为论文第一作者兼共同通讯作者,美国范德堡大学Antonis Rokas教授为共同通讯作者。特别值得一提是浙江大学陈学新教授给予大力支持和悉心指导。另外,范德堡大学和威斯康星大学麦迪逊分校的李远宁博士后、Chris Hittinger教授也参与了该研究。
原文链接:https://www.nature.com/articles/s41467-020-20005-6
沈星星课题组主页:https://shenxlab.com/

参考资料
Shen X X, Li Y, Hittinger C T, et al. An investigation of irreproducibility in maximum likelihood phylogenetic inference[J]. Nature Communications, 2020, 11(1): 1-14.

图 文 | Jerry
校 对 | 沈星星

(0)

相关推荐