贝叶斯统计法构建进化树步骤详解

贝叶斯分析方法(Bayesian Analysis)是一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法(1)。由于易于使用的软件可实现复杂的进化模型,因此贝叶斯方法已在分子系统发育学中变得非常流行。但是,贝叶斯系统发育模型很复杂,参数设计比较复杂,目前并不普及。本文介绍贝叶斯统计学方法构建进化树具体步骤,可以帮助初学者实现进化树的构建。

贝叶斯系统进化树不仅可以用DNA蛋白质作为输入信息,还可以构建关于形态学的系统关系,而通过遗传学信息构建的进化树还可以进行分子钟进化历史分析,形态学,地理学描述绘图,祖先信息追溯等等。虽然,使用马尔可夫链蒙特卡洛(MCMC)进行贝叶斯计算量很大,但是贝叶斯分析进化树的准确性被认为更高。

马尔可夫链蒙特卡洛(英语:Markov chain Monte Carlo,MCMC)方法(含随机游走蒙特卡洛方法)是一组用马氏链从随机分布取样的算法,之前步骤的作为底本。步数越多,结果越好。创建一个具有期望属性的马氏链并非难事,难的是如何决定通过多少步可以达到在许可误差内的稳定分布。通常,我们会采用多个MCMC链同时进行,来更快得到结果。在贝叶斯进化树构建中,MCMC链长度不能被预测,只能通过不断实验得到合适结果。

本文使用Mesquite进行数据类型转换,MrBayes进行树构建,Tracer进行MCMC的诊断,TreeAnnotator进行Consensus Tree总结树构建。MrBayes和TreeAnnotator使用基于CIPRES 网站上的XSEDE功能。CIPRES使用方法参见之前推文。

MrBayes采用基于贝叶斯的Nexus文件格式。将Alignment数据用Mesquite打开后,导出适合的文件格式。

选择文件之后,mesquite会在文件最下方写入一段默认的贝叶斯参数。这段参数我们需要自己探索,手动输入。所以,用写字板打开该文件,手动删除图内内容。

之后,将文件上传到CIPRES的data文件里,选择MrBayes并设置参数。

参数首先需要设置,运行时间长度和nexus data类型。MCMC链越长,需要运行时间越长。

接下来设置AdvancedParameters。

选择替代模型通常可以使用jModelTest,Modelgenerator ,PartitionFinder。这些软件可以找到最适合data的替代模型。具体原理可参见参考文献2。

最重要的设置MCMC链长度,理论上来说,MCMC链越长,结果越准确,且文件结果越大。通常,如果数据集比较小,几百万可以满足计算质量。之前笔者进行400个左右的物种分析,MCMC链长度达到几十亿,需要在本地进行。而MCMC链分为2链,为了缩短计算难度。结果文件可以选择sample interval,意味虽然MCMC链很长,为了缩小结果文件,可以提高sample interval,

结果文件需要在output中下载。T文件为raw tree文件,每个链生成一个,需要分别下载。P文件为后验概率文件,也需要下载并正在tracer中查看。

树文件如下,请手动把几个文件合为一个。

概率文件需要多个打开,Tracer合并检查。

ESS为Effective samplesize,如图中都大于200说明计算质量很好。如果ESS显示红色说明计算要重做,黄色勉强可以。

好的计算结果所有树基本呈现正态分布,头尾为burnin部分,手动合并时候去除。

最后,把合并好的树文件使用TreeAnnotator得到总结树Consensus tree 如图。

图为一个分子钟校正树,数字代表MYA(million year ago)时间。正常可显示后验概率posterior probability。

具体如何进行分子钟计算会在后续推送中说明。敬请期待。

参考文献

1 杨宪泽.21世纪高校特色教材人工智能与机器翻译:西南交通大学出版社,2006年02月:第1版,第233页

2 Nascimento FF,Reis MD, Yang Z. A biologist's guide to Bayesian phylogenetic analysis. NatEcol Evol. 2017;1(10):1446-1454. doi:10.1038/s41559-017-0280-x

END

(0)

相关推荐

  • R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

    原文链接:http://tecdat.cn/?p=19664 MCMC是从复杂概率模型中采样的通用技术. 蒙特卡洛 马尔可夫链 Metropolis-Hastings算法 问题 如果需要计算有复杂后验 ...

  • R语言具有Student-t分布改进的GARCH(1,1)模型的贝叶斯估计

    原文链接:http://tecdat.cn/?p=17494 本说明介绍了具有Student-t改进的GARCH(1,1)模型的贝叶斯估计方法. 介绍 摘要 本说明介绍使用Student-t改进的GA ...

  • R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

    原文链接:http://tecdat.cn/?p=19889 如果您可以写出模型的似然函数,则 Metropolis-Hastings算法可以负责其余部分(即MCMC ).我写了r代码来简化对任意模型 ...

  • 她因新冠而离世,给一段科学史上的传奇画上了句号

    2020年底,距离新年钟声的敲响还有三天的时候,洛杉矶郊区帕萨迪纳小镇的一家老人院内,一位93岁高龄的老妇人因为新冠肺炎静静地走完了一生. 她的名字叫艾丽亚娜(Arianna),她还在使用着40年前和 ...

  • t-GARCH 模型的贝叶斯推断理论

    R语言实例链接:http://tecdat.cn/?p=17494 实际处理中,发现金融数据存在尖峰厚尾现象.所以我们选择扰动项服从 t 分布的 t-GARCH 模型来描述波动性过程.t-GARCH( ...

  • 手把手教学,如何使用低代码快速构建应用程序步骤详解

    一.低代码开发简介 基于代码生成器的低代码开发具有标准化的开发流程和灵活的业务逻辑,从而使整个平台高效灵活的进行代码开发功能. 二.低代码开发特点 1.满足企业的多样化需求 根据企业的管理方法和流程特 ...

  • 英语课文怎么背?思维导图法步骤详解,从此背诵不再难!

    怎样背诵才最科学.最有效?今天小编就和大家聊一聊英语课文背诵的最强武器--思维导图.老师们可以帮助学生用这一工具锻炼记忆能力和语言能力! 很多学生觉得画思维导图很麻烦,其实用思维导图背课文有很多优势: ...

  • 书画联盟丨青绿山水画基本步骤详解

    编辑:雪狼异族   青绿山水画基本步骤分为起稿.落墨.罩色.上色.复色.固色等. 起稿是将要临习的或创作的稿本,放样到绢或宣纸上,传统多用九宫格放样法,现多用拷贝台直接拷贝.若是临习传统青绿山水画,此 ...

  • 国画●技法:国画猴子的基础画法步骤详解

    猴为灵长类动物,绘猴首要了解其形体结构,如骨骼.肌肉及毛等,要点略述如下. 第一,骨骼.不了解骨骼就很难了解猴的动态变化,形体的变化实际就是骨骼的变化,这一点虽复杂但 一定要了解. 第二,肌肉.肌肉的 ...

  • 空调维修电话|中央空调清洗步骤详解

    空调维修电话:400-058-6861,全国第三方维修服务商. 中央空调经过了长年累月的使用,会滋生很多的细菌和病毒,如果不及时清洁的话,不仅会对居室者的健康造成伤害,而且会加速空调的老化.因此对空调 ...

  • 教程 | 工笔红嘴蓝鹊的设色步骤详解

    国画讲坛 昨天 红嘴蓝鹊是鹊类的一种,它上身蓝色,头黑色,嘴红色,尾十分长,是鹊类中体形较大.尾巴较长.羽色美丽的一种,也是古今花鸟画中常见的主角. 1 确定画面的构图,调淡墨勾勒红嘴蓝鹊的外形轮廓及 ...

  • 献给初学者:western blot 操作步骤详解

    献给初学者:western blot 操作步骤详解 2016-08-08 18:22 来源:生物学霸 作者:dlzhangyu 字体大小 - | + 我做 western 的时候,发现目前的资料都很老 ...

  • 【国画教程】八哥画法步骤详解

    [国画教程]八哥画法步骤详解 八哥学名鸲鹆,生于南方,因其本性灵巧,能仿人言,故多有贩卖,久之南北流传.八哥通身乌黑,初级飞羽中部具白斑,黑白分明,愈显俏丽.头前鼻上有丛毛,色亦乌黑.爪.嘴多为粉黄. ...

  • 如何更换热水器镁棒,清洗热水器应怎样操作,方法步骤详解

    电热水器作为家居常用的必备家电产品,为我们的生活提供了便利条件.由于每天都会用到热水器,因此较高的使用频率也会对它的使用寿命产生影响. 为了能够增加热水器的使用效率,并延长使用寿命,就需要它进行定期的 ...