贝叶斯统计法构建进化树步骤详解
贝叶斯分析方法(Bayesian Analysis)是一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法(1)。由于易于使用的软件可实现复杂的进化模型,因此贝叶斯方法已在分子系统发育学中变得非常流行。但是,贝叶斯系统发育模型很复杂,参数设计比较复杂,目前并不普及。本文介绍贝叶斯统计学方法构建进化树具体步骤,可以帮助初学者实现进化树的构建。
贝叶斯系统进化树不仅可以用DNA蛋白质作为输入信息,还可以构建关于形态学的系统关系,而通过遗传学信息构建的进化树还可以进行分子钟进化历史分析,形态学,地理学描述绘图,祖先信息追溯等等。虽然,使用马尔可夫链蒙特卡洛(MCMC)进行贝叶斯计算量很大,但是贝叶斯分析进化树的准确性被认为更高。
马尔可夫链蒙特卡洛(英语:Markov chain Monte Carlo,MCMC)方法(含随机游走蒙特卡洛方法)是一组用马氏链从随机分布取样的算法,之前步骤的作为底本。步数越多,结果越好。创建一个具有期望属性的马氏链并非难事,难的是如何决定通过多少步可以达到在许可误差内的稳定分布。通常,我们会采用多个MCMC链同时进行,来更快得到结果。在贝叶斯进化树构建中,MCMC链长度不能被预测,只能通过不断实验得到合适结果。
本文使用Mesquite进行数据类型转换,MrBayes进行树构建,Tracer进行MCMC的诊断,TreeAnnotator进行Consensus Tree总结树构建。MrBayes和TreeAnnotator使用基于CIPRES 网站上的XSEDE功能。CIPRES使用方法参见之前推文。
MrBayes采用基于贝叶斯的Nexus文件格式。将Alignment数据用Mesquite打开后,导出适合的文件格式。
选择文件之后,mesquite会在文件最下方写入一段默认的贝叶斯参数。这段参数我们需要自己探索,手动输入。所以,用写字板打开该文件,手动删除图内内容。
之后,将文件上传到CIPRES的data文件里,选择MrBayes并设置参数。
参数首先需要设置,运行时间长度和nexus data类型。MCMC链越长,需要运行时间越长。
接下来设置AdvancedParameters。
选择替代模型通常可以使用jModelTest,Modelgenerator ,PartitionFinder。这些软件可以找到最适合data的替代模型。具体原理可参见参考文献2。
最重要的设置MCMC链长度,理论上来说,MCMC链越长,结果越准确,且文件结果越大。通常,如果数据集比较小,几百万可以满足计算质量。之前笔者进行400个左右的物种分析,MCMC链长度达到几十亿,需要在本地进行。而MCMC链分为2链,为了缩短计算难度。结果文件可以选择sample interval,意味虽然MCMC链很长,为了缩小结果文件,可以提高sample interval,
结果文件需要在output中下载。T文件为raw tree文件,每个链生成一个,需要分别下载。P文件为后验概率文件,也需要下载并正在tracer中查看。
树文件如下,请手动把几个文件合为一个。
概率文件需要多个打开,Tracer合并检查。
ESS为Effective samplesize,如图中都大于200说明计算质量很好。如果ESS显示红色说明计算要重做,黄色勉强可以。
好的计算结果所有树基本呈现正态分布,头尾为burnin部分,手动合并时候去除。
最后,把合并好的树文件使用TreeAnnotator得到总结树Consensus tree 如图。
图为一个分子钟校正树,数字代表MYA(million year ago)时间。正常可显示后验概率posterior probability。
具体如何进行分子钟计算会在后续推送中说明。敬请期待。
1 杨宪泽.21世纪高校特色教材人工智能与机器翻译:西南交通大学出版社,2006年02月:第1版,第233页
2 Nascimento FF,Reis MD, Yang Z. A biologist's guide to Bayesian phylogenetic analysis. NatEcol Evol. 2017;1(10):1446-1454. doi:10.1038/s41559-017-0280-x
END