Nature Comm | 进化树“再现性危机”!新研究发现系统发育树存在9% -18%的不可重复性...

近日,浙江大学农业与生物技术学院沈星星研究员、陈学新教授以及美国范德堡大学Antonis Rokas教授课题组联合在Nature Communications发表题为An investigation of irreproducibility in maximum likelihood phylogenetic inference的研究论文,阐明了系统发育树存在9% -18%的不可重复性危机。

研究结果可重复或可再现性是科学界的基石。在过去的几年里,科学家对已发表结果可重复性的担忧不断增加,导致了“再现性危机”一词的出现。系统发育树是进化生物学研究的基础。例如,系统发育树通常被用来研究基因、基因组、物种的演化过程。2013年报告称:由于缺乏数据公开化,6277/7539(83.3%)研究课题的系统发育树是不可重复的。这一研究促使了多个公共存储数据库的诞生(如figshare)。

公共数据库提供的信息是否足够系统发育树的重复构建?此外,系统发育树的构建参数、计算资源(CPU处理器型号、线程数等)均存在差异。这些差异是否会导致不可重复的系统发育树?什么原因导致不可重复的系统发育树? 如何规避不可重复危机?回答这一系列问题有利于提高系统发育树的再现性,同时为系统发育学软件开发者提供重要的指导依据。

图1

该研究收集了15个动物、植物、真菌系统发育基因组学数据集(总共19414个基因比对数据)。这15个数据集包含非编码DNA 、外显子、氨基酸三类数据集。基于19414个基因数据集,该研究检验了常用系统发育树构建软件IQ-TREE和RAxML-NG可重复性。对每一个基因,运行两次完全相同的参数(Run1和Run2),并比较Run1和Run2产生的系统发育树是否一致(图2A)。研究结果表明:IQ-TREE和RAxML-NG分别存在81.9%和90.7%的系统发育树可重复。比较IQ-TREE和RAxML-NG之间,仅20.3%系统发育树可重复(图2B和C)。利用UCE、AHE等捕获技术收集的数据存在更高比例的不可重复性。

图2

如何提高系统发育树的可重复性?除了基本必备的参数(如基因、软件信息、替换模型、树搜索的数量),还应该提供处理器类型、线程数量和随机起始数的信息(图3)。考虑到系统发育基因组数据集中存在的成百上千个基因,一个更实用的方是公布每个分析的日志文件。因为日志文件包含所有关键参数 (例如基因名、程序名、树搜索的数量、替代模型、处理器类型、线程数量和随机起始数)。

图3

浙江大学农业与生物技术学院沈星星研究员为论文第一作者兼共同通讯作者,美国范德堡大学Antonis Rokas教授为共同通讯作者。浙江大学陈学新教授给予大力支持和悉心指导。范德堡大学和威斯康星大学麦迪逊分校的李远宁博士后、Chris Hittinger教授也参与了该研究。

沈星星课题组主页:

https://shenxlab.com/

原文链接:

https://www.nature.com/articles/s41467-020-20005-6

(0)

相关推荐