矫正基因结构注释 - 做有良心的基因家族分析

有良心的科研,都是应该做出哪怕是一点点的贡献。反感任何人只是鼓励别人发文章灌水。

写在前面

半个月前,我推了一个《任何人都能掌握-基因家族分析》的腾讯课程(原本事实是开给课题组)。在热身课程(完全免费)中,将我个人对基因家族分析的认知和其意义均做了说明,感兴趣的可见 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一点,即是,基因家族分析中一个常常被忽略甚至忽视的,对科研可能有所贡献的步骤(可能很多培训公司并不会涉及),那就是矫正基因结构注释。

为什么要矫正基因结构注释

基因组,尤其是植物基因组,从测序,到组装,到注释,每一个都不简单。甚至存在一种说法,一篇基因组文章,一个组装算法。而事实上,注释也是类似的。即使是拟南芥或者水稻这两个模式生物,都不能保证所有基因的结构都被注释出来。更何况刚发表的基因组?
在基因家族分析讲演中,有这么一个图

从图中可以很直接的看出来,明显至少有那三个基因是缺胳膊少腿
那么,怎么办?当然是选择矫正他啊
基因家族分析,是一个常规工作,既然有意要做这个工作,那么就不应该简单的过家家。我觉得既然要做,就做好他。所以,开着基因家族分析,其实是一个比较好的机会,同时完成对应的家族基因的结构注释矫正。

如何矫正

在半个月前的讲演中,其实也已经讲过了,用在线网页工具softberry就可以了,以上图的 Aco005453.1为例,基于motif pattern和domain info,可以明显地看出来,其缺少的是5端,GRAS结构域也被截断了(注意,这个在几乎所有物种的基因组结构注释文件都会出现,因为软件永远不可能保证绝对的准确,至少目前这个事情上是的,而菠萝基因组已经做得很优秀了。)

操作步骤

1.首先,获得这个基因的位置信息
使用TBtools的gff3 gene info工具

打开这个gene info文件即可找到基因的坐标信息

可以看得出来,就是在LG1上
2.提取该基因当前区间,以及上下游5000bp

这个时候我们就得到了这部分序列
3.基于文本直接预测基因模型
打开softberry网页工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述获得的序列黏贴进去

点击search,很快就可以得到结果

4.查看是否已经补全
上述已经预测除了一个新的基因模型,同样是包含了两个外显子,进行校验
将序列直接提交到NCBI CDD-search

这时,我们得到一个惊喜

我们得到的新的序列,已经补全了CDS,GRAS结构域已经补全,同时还预测出来得了DELLA结构域,说明这个丢失了5端的序列,本身应该是GRAS中DELLA分支的成员,这是不错的结果。
But,矫正结构注释还差一步!
5.重新生成gff3注释文本
上述是通过软件直接预测的,而事实也可以直接通过race实验并做sanger测序完成。无论如何,我们得到的终归是Fasta序列,而对于日后还需要做的各种分析,我们需要的是GFF3或者GTF类的文件,那么怎么办?
用TBtools啊!在很久以前,我就已经实现了这个功能,一个目前来说算是老朋友的需求,由于他文章迟迟没有发,我还是决定开放这个工具,事实也不会影响他的东西。
操作起来很简单
找到并打开这个工具

黏贴新构建成的CDS序列,设置对应的DNA序列(也就是刚才的5000bp上下游),点击Start即可。这样重构的gff3文本最准确。But!生成之后可能需要自己调整下坐标,还是比较麻烦。所以我一般是,DNA序列直接用genome代替(TBtools已经尽可能地考虑了各种比对问题,hsp overlap,末端比对不上等等...),所以这里具体操作是

很快,TBtools就重构出对应等等gff3文本

OK,重构出来的gff3文本跟softberry上面的fgensh的结果一直,是两个exons
说明TBtools这个重构gff3文本的工具,还是可以使用的,具体处理了较多的问题

6.将重构的gff3文本,黏贴替换原始对应的gff3文本的数行
这一步手动操作,不过需要注意,我们预测出来的基因结构,其实存在一定小问题,也就是,其实。。。我们从一开始截取序列就截取错了
我们预测成,这个序列了。怪我!。。。坐标选大了

恩,随意选的一个基因,果然是给我自己下套

后面的这个基因,已经不大可能是真实的基因(无可救药,应该丢掉,可能即使是基于RNAseq数据查看都救不过过来,因为已经是Overlap了,当然可以考虑或许存在不大可能存在的可变剪切?或者是两个GRAS domain?)

  1. 小结

恩。。。我又试了几个基因,基本无解。或者是正好基因与上下游有overlap,或者是基因结构预测后并没有太大的改善。不过似乎也OK,毕竟我们大概可以知道其中两个基因并不真实。
如果要证明他们是否真实,可能还是需要RNAseq数据辅助,或者事实上,需要race实验。得到序列之后,再按照上述操作,用TBtools重构gff3即可。

写在最后

嗯,意料之外,情理之中。
据我个人了解,菠萝基因组应也是经过了基因结构注释的人工矫正。所以从某个角度来说,大部分基因结构应是正确。可能单纯从文本预测上,确实无法改善结构注释信息。而只能发现一些确实有问题的序列。对于这些序列,或者是事实并不存在的假基因,或者是需要race实验做进一步获取。
无论哪一种途径,得到序列之后可以直接用TBtools重构gff3信息,并修改原始gff3文件。做进一步分析。

(0)

相关推荐