强势更新 | 进化尺度上的基因保守区块挖掘

写在前面

一年前,我看到课题组其他成员在整一个“进化保守区块”挖掘的工作。说实话,觉得....挺麻烦。

于是我写了一个工具,具体见推文《进化保守的基因区块-可视化挖掘》。

这个功能有几个不错的点,主要包括:

  1. 自动寻路 - 这点尤为重要,无需用户做任何配置文件

  2. 随意调整基因区块

  3. 基因区块反向

  4. 鼠标悬停展示基因ID

  5. 其实可以直接右键删除一些不感兴趣的Panel

  6. ...

另外输入也简单:

  1. 每个物种的基因位置信息文件

  2. 基因对信息

事实上,这个功能推出之后....我们课题组并没用起来。相反,有不少科研人员与我联系,希望更好的使用,也提了一些不错的建议,比如邵扬提到的几个。具体我.....接受了绝大部分建议,并把这些建议给忘记了....
但科研需求嘛,躲得过别人的,躲不过自己的。最近师弟在做一些网站优化。原本是按照计划调用唐海宝老师的JCVI,但无奈conda配置起来的,调用上遇到了问题。(很明显,即使喊我去整,我也懒得)。与其花时间帮忙调试环境,不如用更少的时间,优化下 TBtools 已有功能。于是,现在 TBtools 的 “Find Evolutionary Conserved Path” 功能多了三个重要更新。

  1. 自动布局,前述版本Panel左对齐,但最合适的应该是居中对齐

  2. 支持单基因定区间,即用户只需要输入自己非常感兴趣的一个基因,TBtools 会直接抓取上下有 10 个基因,并由此去自动寻路,找到所有可能的共线性区块(注意...这里的所谓的共线性区块是 TBtools 自定义的宽松逻辑,比MCScan和JCVI都宽松),TBtools 优势在于自动寻路,不在于分析结果

  3. 支持高亮基因,只需要设置一个感兴趣的基因 ID,TBtools 会将图片中与该基因直接相关或间接相关的基因都高亮出来,并标记 ID。大体结果图如下:

至于使用方法

我想了一下....界面上已经写得很清楚具体输入了,相信只要想做这个事情的人,自然都看得懂这些输入参数....不做过多展开,但可以简单描述:

  1. 区间信息,可以是“染色体ID#起始位置#终止位置”,如“Chr1#1000000#200000”,对应的是第一个物种的区间即可;也可以是“起始基因ID#终止基因ID”;当然,现在可以是“某个基因ID”,当然,必须是第一个物种的。

  2. 简化后的gff文件,这个用 TBtools 的 GFF 简化功能即可,比如 Gene Info. Extract,输出文件可以直接用

  3. 基因对的信息,可以直接是 Blast比对 或 Diamond 比对结果(输出文件tab格式直接用),也可以是任何共线性分析结果(不过需要转换一下,比如用TBtools转换)

  4. 高亮的基因ID,只要这个ID在输出的图片中存在就行了,不管是哪一个物种的

整体上,最关键的估计只有一个,保证 基因ID 在区间信息,位置信息,基因对信息,和 高亮信息 中是同一个来源。简单来说:如果你从头到尾使用 TBtools,那就不存在这个问题,因为我都考虑过了。

写在最后

Emmm... 至于如何在网站上部署....这块前段时间我已经开放接口了。暂时不公开哈,感兴趣的或许可以合作,但具体还是得看是否确实有时间.....有时候想想,搞分析的人,挺难的。幸好,我不搞了,以后要回归大田,种树种树。

(0)

相关推荐