使用HMM进行基因家族鉴定?无人不能。

写在前面

很久很久以前,各种原因,我写过一个帖子,《零基础-完全重现某个基因家族分析文章(的分析部分)》 https://www.jianshu.com/p/88075f6cd4f1。其中,我用了hmmer这个软件。但是后续我释放《基因家族分析》课程(无需虚拟机,无需命令行,更无需一行代码)时,我完全没有使用hmmer。
主要原因是,我觉得完全没必要,或者换句话说,hmmer直接检索某个motif,实际效果完全不如blast(因为目前大多数物种基因组的基因结构注释非常粗糙)。
但是,今天我还是要写下这个帖子。

推出TBtools的Simple HMM Wrapper的原因

我一直认为,如果你要用linux环境分析数据,那么最好是用纯净的linux环境。同时我非常看不惯那些喜欢整天让别人安装Vitural Box然后开展各种数据分析的操作。既然,你要让用户在windows下操作,那么就给出windows下的一套解决方案,而不是安利一些低效率的东西。说归说,TBtools我从来都是安利出去。
这两日,我正好在纠结某个课题,因为我们需要鉴定几十个物种中某一类蛋白。这类蛋白涵盖了几十个基因家族,结构域也没有绝对保守的某个或者某几个,最终的解法就是,我筛选了pfam中的50多个模式,随后用HMMER进行扫描,随之调出。
我突然发现,看来HMMER在一些时候,还是比较有用。
那么既然有用,命令行的我也写完了,索性,再发一个windows下(也包括任何其他操作系统)都可以无需命令,无需虚拟机就可以快速扫描序列集合中的结构域的功能。

使用方式

打开TBtools,找到Others菜单,找到

设置输入文件:

  1. 蛋白序列集合,fasta格式,可以是某个物种的所有蛋白序列,如拟南芥

  2. Pfam-A.hmm, 这个是pfam数据库的所有模式数据库,下载并解压即可,可长期使用,请保持定期更新,具体下载链接是 ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz

  3. Pfam模式的ID列表 ,这个基于自己的需要准备,正如上面所说,你可以输入50多个,只是会很慢。一般几个还是很快的。

  4. 输出文件

整体上,输入结果如下图

输出结果

在上述示例中,我使用了一个MYB结构域和MYC结构域,可以得到如下输出,具体还是要看使用的人自行解读。建议参考Hmmer官网的输出说明,

写在最后

Emmmm....这应该是一个无趣的功能。
总的来说,很多时候我还是想说,
“其实我只是写一个我自己觉得有用的工具,并释放出来。但这不代表我是一个乐于分享的人。恰恰相反,我认为所有的乐于分享,只是另有所求。”

(0)

相关推荐