IQ-TREE的使用 - 超快速用极大似然法构建进化树

写在前面

我知道IQ-tree已经有很长一段时间了。不过我一直并没有使用它。主要原因是,常用的快速构建ML树的软件是FastTree,如果要求准确,我会在服务器上使用RaxML。所以是用不到。不过,使用IQ-tree可能最大的好处是,他支持直接估算替代模型。确实会省事许多。由于最近相对有多一点时间,那么我就查阅并记录一下IQ-tree的文档。

程序下载位置

IQ-tree官方现在似乎只提供多线程版本....

http://www.iqtree.org/#download

如果你赶时间,那么直接翻到最后。

简单构建进化树

iqtree -s example.phy

其中-s参数跟的是输入的多序列比对结果。运行这个命令会产生两个输出文件
example.phy.iqtree记录相对具体的进化树构建信息。
example.phy.treefile记录构建成的进化树的newick文本,这个应该是最重要的输出文件
example.phy.log主要用于给软件作者debug。

作者在文档里提到

从版本1.5.4开始,默认自动估算最优替代模型

这是一个非常机智的操作....

IQ-tree运行过程会保存每一步成功运行的结果,或者说他是运行中断并从断点重新开始的。这个对于大数据集是有很大好处的。不过有时候,我们就是想从头开始,那么需要加上参数-redo

iqtree -s example.phy -redo

默认情况下IQ-tree的输出文件名字以输入的alignment文件为前缀。我们可以对其进行修改,使用-pre参数

iqtree -s example.phy -pre myprefix

不过事实上,我觉得完全没必要。除非你要不断的调整建树的参数。

选择合适的替代模型

IQ-tree支持多种不同输入数据的替代模型选择,包括

  • DNA

  • protein

  • codon

  • binary

  • morphological

通过设置参数-m MFP使其自动测试并选择最优替代模型

iqtree -s example.phy -m MFP

这个参数其实已经可以不用给了,上述说过,会默认执行。
一旦执行最优替代模型的预测,那么就会多输出一个文件,
example.phy.model记录了所有模型的似然信息。
事实上,最优替代模型的信息会记录 example.phy.iqtree中。如果是完全相同的多序列比对结果,那么最优替代模型也是相同的。如果并没有改变过,那么完全可以指定替代模型,比如已知最优替代模型为TIM2+I+G。那么可以执行下述命令

iqtree -s example.phy -m TIM2+I+G

当然,有时候,你只是想看看最优替代模型是啥,而不想构建进化树,毕竟后者相对耗时。那么可以执行

iqtree -s example.phy -m MF

如果计算资源允许,那么最好的方式是增加参数-mtree,这样会检查所有可用模型

iqtree -s example.phy -m MF -mtree

如果你的输入数据是SNP数据,那么需要加上+ASC

iqtree -s SNP_data.phy -m MFP+ASC

当然,基于传言和个人经验,在SNP数据上,似乎NJ法的表现就是由于ML法。

使用超快bootstrap法评估分支支持度

真实的进化信息只有一个,而我们总是拿着有限的序列信息,希望去获得他。能否获得他,是一个问题。而我们使用的序列信息是否能真实且稳定地反应一个进化信息,那么是另外一个事情。bootstrap法常用的,尤其是ML法构建进化树上,分支可靠性检验方法。但是这个计算逻辑最大的问题在于,抽样重新跑,抽样再重新跑,不断重复,直到收敛或者是到指定的比如1000次。计算量大,耗时长。IQ-tree的作者团队在前述提出了一个快速的BS方法,最后整合到IQ-tree中。使用的方式是

iqtree -s example.phy -m TIM2+I+G -bb 1000

注意到:

  1. -m TIM2+I+G 是因为已经指定了替代模型

  2. -bb 1000 指定了要用快速BS法做1000次

在这些参数下,输出文件example.phy.iqtree中会增加一个MAXIMUM LIKELIHOOD TREE部分,其中记录了具体BS结果。对应的newick文本则可以在example.phy.treefile中找到。
此外,会增加三个输出文件

  1. example.phy.contree记录了一致树,我个人认为这个用处不到,事实上,一致树我觉得主要是好看....

  2. example.phy.splits....

  3. example.phy.splits.nex... 与第2个文件具体信息类同

作者提醒到

快速BS法的具体解读与常规的BS法有不同,用户需要知晓。

我个人事实上在很早的时候,其实试过IQ-tree,但是两三套数据下来,自认为其表现不如RaxML,于是没有使用。作者在文档中提到,模型冲突的情况下,快速BS会高估BS值,推荐加上参数-bnni。于是,命令是

iqtree -s example.phy -m TIM2+I+G -bb 1000 -bnni

当然,作者仍然提供正常的BS参数,也就是不要-bb,而只用-b。或许我们不赶时间的情况下,可以使用

iqtree -s example.phy -m TIM2+I+G -b 100

此外,IQ-tree还支持其他的支持度估算方法
SH-like

iqtree -s example.phy -m TIM2+I+G -alrt 1000

你甚至可以同时进行两种分支支持度的计算,

iqtree -s example.phy -m TIM2+I+G -alrt 1000 -bb 1000

嗯,作为一个基本不怎么做进化分析的,我似乎觉得有BS就足够了,毕竟这个似乎才是最多人care的。

使用多线程

Emm... 我以为iqtree本身是直接支持多线程,但是似乎从文档来看,是需要另外的一个iqtree版本,iqtree-omp

iqtree -omp -s example.phy -m TIM2+I+G -nt 2

注意到,只有在长的比对结果下,使用多线程才会更有效。最好的方式是让IQtree自行定夺

iqtree -omp -s example.phy -m TIM2+I+G -nt AUTO

不过目前应该是官方就有编译的支持多线程的。

写在后面

总结,使用IQ-tree构建进化树的一步法,可能是

iqtree -s example.phy -m MFP -bb 1000 -bnni -redo

最后查看结果文件example.phy.treefile
如果你担心快速BS效果不好,那么考虑使用

iqtree -s example.phy -m MFP -b 1000 -redo

如果你的序列足够长,那么文档建议增加-cmax,默认是10,这主要是计算资源的问题。

iqtree -s example.phy -m MFP -bb 1000 -bnni -cmax 15 -redo

(0)

相关推荐

  • 模型进化论:从全等到相似

    (本文发布于几何数学公众号) 几何模型体系视频课程 (点此查看) 模型也是可以进化 的,所谓模型的"进化",就是在某一个模型的基础上,拓展引申,得出其他情况下仍有类似的结论!其本质 ...

  • 贝叶斯统计法构建进化树步骤详解

    贝叶斯分析方法(Bayesian Analysis)是一种计算假设概率的方法,这种方法是基于假设的先验概率.给定假设下观察到不同数据的概率以及观察到的数据本身而得出的.其方法为,将关于未知参数的先验信 ...

  • 「急救」这样练习,超快速适应新果岭!

    安卓用户直接点图片 苹果用户长按识别二维码 安卓直接点图片,苹果扫 每次来到新的球场,总是要花很多时间去适应果岭,导致浪费了很多抓鸟保帕的机会!如何利用开球前时间迅速掌握果岭情况,成为适应新球场的关键 ...

  • 超快速人像磨皮润肤修饰PS插件SkinFiner 4.1

    截止20210514已经更新至4.1版 这篇文章2020年8月13日推送过,当时大家反映很好,但可惜很快这个软件就不能保存调整效果了,也就是说只能看看,不能使用(购买官方正版除外,也只能一机一码),但 ...

  • houdini超快速创建differential line迭代生长效果

    --  微资讯 · 微课程  -- 利用零碎时间,走上超神之路! 小编导语 之前小编分享过类似是制作效果,不过其实有点复杂和难度.这篇技术非常简单快捷,因为用了point relax节点,真心发现这是 ...

  • Astronomy Picture of the Day——超快速自旋的旋涡星系

    Spiral Galaxies Spinning Super-Fast  Image Credit: Top row: NASA, ESA, Hubble, P. Ogle & J. DePa ...

  • 超快速判断一家公司的投资价值!

    -- 毕竟好行业也经不住同行的迫害 营收高利润低还是白忙活 一旦市场份额被侵占 就更没有什么利润可图了 所以想在一个行业里持续赚钱 竞争格局就显得很重要 一般来说竞争格局可以分为五类 而且这五类按照顺 ...

  • 专业会计才知道的Excel小技巧之超快速输入多个0

    专业会计才知道的Excel小技巧之超快速输入多个0

  • F1赛车中的Nexa3D超快速光固化3D打印技术

    导读:3D打印技术在赛车领域中的应用如今已经不是一件稀奇的事情了.2020年,南极熊曾报道过雪佛兰赛车成功安装3D打印部件并跑了12.8万公里比赛:航天专家APWORKS的高强度合金粉末被批准用于F1 ...

  • 超快速人像磨皮润肤修饰PS插件SkinFiner 3.0

    这篇文章2020年8月13日推送过,当时大家反映很好,但可惜很快这个软件就不能保存调整效果了,也就是说只能看看,不能使用(购买官方正版除外,也只能一机一码),但现在可以使用了,现在都版本界面是这样的, ...

  • 超快速的端到端实例分割模型,手把手教你用opencv部署Yolact

    作者丨nihate 审稿丨邓富城 编辑丨极市平台 极市导读 作为ncnn推理框架里唯一一款做实例分割的模型,yolact也展现出了它的魅力,实现端到端一阶段完成实例分割且运行速度快.本文为作者上手编写 ...