一个小工具的想法:从被子植物进化的角度看生物学问题

写在前面

从硕士生到博士生,对生物学问题的了解有了较大的变化(硕士靠硕导,主要磨练技能,打基础;博士靠博导,主要磨练意志,拓宽思路)。
慢慢地也明白,无论生物学问题是在哪个物种中发现的,推广到大植物的角度,或者更好地说,推广到植物演化的角度来说,那么就会更有趣。也或许,在推广的过程中,发现更多可能对下一步研究有用的信息。

目前的问题

而在我个人的认知范围内,较多的分析可能会遇到以下问题

  • 没有推广的概念

  • 不知道如何推广,更或者说,没有合适的推广工具

前者,无话可说。后者则需要一个优秀的工具。打个比方,当你分析发现某个基因在苹果中有一个拷贝,那么在桃子里面呢?在整个蔷薇科里面呢?在十字花科里面?在整个双子叶里面呢?在整个被子植物里面呢?
目前已经可以拿到基因组组装结果的植物,应是超过300种,即使对每个物种都做一遍,或者是挑取其中关键科属的一些物种做一遍,那么难度不大。
而麻烦的是,在于每个物种做完之后,如何更好的从进化的角度来可视化。
此时需要的可能不是进化树可视化软件,而是拿到这个进化树文本的软件。

也就得到这么一个问题:

我有20个物种的各自的分析指标,我需要知道这20个物种相互之间的公众认可的进化关系,如何快速得到?

一个解决这个问题的办法

在被子植物上,有一个非常伟大的项目,APG,目前的版本是IV(博导介绍的数据库)。这个项目是比较权威的植物进化关系网站,提供了几乎所有植物科层面的分类和进化关系。

还有另一个伟大的项目,The Plant List,这个数据库也比较厉害,提供了几乎所有植物的属到科的关系

那么解决问题的办法就有了:

  1. 拿到20个物种的双名

  2. 使用The Plant List获得每一个物种的科

  3. 使用APG IV, 最终的进化关系

说起来是比较简单的,做起来,还是比较麻烦。主要是因为这涉及到大量的文本整理和映射工作,尤其是最后的树文本的构建,可能需要使用TreeGraph2等软件。

当然,事实是存在很不错的解法,即科学网 - 张金龙老师 - 一份优秀的教程:
《用Phylomatic和PhyloCom进行群落系统进化分析(20180820)》 http://blog.sciencenet.cn/home.php?do=blog&id=335503&mod=space&uid=255662

感兴趣的朋友可以前往查看。
可能在不久之后,我会在释放一个更便捷的做法,使得所有人只需要给一堆双名列表,就可以直接得到newick文本,因为工具我都写了(从tab表到树,从树到tab表,树的可视化等)。
一直没有实现这个工具的主要原因是今天推文的信息来源。
今天把信息都理清楚了,则是因为课题组成员确实需要用到。
为什么我还是没写这个工具,原因是感觉太简单,或者是不值得。

写在最后

这会是一个不错的生信练手工具。写到这里我突然想起iTOLs?或者是Evolviews? 这两个上面是否就包括了以上功能?我并不知道,也不想知道。一个是我可能确实用不上以上工具,另一方面,类似的功能,如果想要实现,那么可能需要一些时间。而类似的图片,如果想要画出,那么并不困难。

我并不反对任何常见的入门方式。当然我个人推荐的是:

  1. 做一套完整的数据分析

  2. 从头到尾写一个有人用的工具

OK。看运气了。

(0)

相关推荐