改造-基因组浏览器-IGV(九)- 快速[t]BlastN结果
写在前面
高通量测序技术普及,大量物种基因组被测序。组装质量逐步提高,但基因结构注释的质量则一如既往的让人担心。错误的基因结构注释,可能会使得你得到错误的结果。比如:
不准确的基因结构注释,使得编码蛋白集合序列有误,最终导致同义突变位点的错误统计,得到的Ks值有错,于是无法相对正确的估算物种的分化时间;
不准确的基因结构注释,可能会使你得到的分析结果是某个基因家族的扩张或者收缩,而实际情况是,存在一定的基因没有被正确注释出来
不准确的基因结构注释,在更严重的情况下,直接会导致你做的所有RNAseq定量出错,于是你无论怎么分析,得到的差异表达基因列表都毫无意义。
不准确的基因结构注释。。。
总的来说,Garbage in, Garbage out.。
我一如既往地向各位提出,分析中需要注意的各种各样的问题。而不是给出分析流程,送出代码。
我开始觉得,很多人并不值得你去分享你的所做,所知。或者是他们不需要,或者是他们不懂,或者是他们不屑。
可能只有聪明的人才知道,
成功是不能复制的,但是坑是可以躲过的。
你复现再多人的流程,能得到的往往是类似的结果。所以paste code
的工作,能让你得到的永远是表面的。
好,说好了不吐槽,然而我还是写了一长串。
今天这个推文的主题是,推出刚才改造的IGV的新的使用姿势。
快速在全基因组查看[t]BlastN结果
Blast,我们大家都很熟悉。IGV,我们也很熟悉。存在不少时候,我们会希望直接在IGV中可视化Blast的结果,这样做的好处有很多。
看看某个基因或者基因家族在IGV的分布位置,随后结合RNAseq数据进行人工基因结构注释矫正
看看某条引物可能的错配位置...
看看其他物种的序列,在当前物种中的位置,结合RNAseq数据或者其他重测序数据,比如你要看看在这里有没有SNP
....【用途不应该由我来想,而是用户来想】
使用方式与效果
我一贯认为,生物信息到下游,必然是要可视化Inspect。在这种情况下,超短时间内获得可用于可视化的数据,有助于缩短你的分析时间,更重要的是,不会打断你的分析思路。
blastn或者tblastn都可以,感兴趣的各位可以自己命令行操作。而我这里直接使用TBtools,因为这样方便。
所以操作步骤简单:
设置输入的序列,比如一条蛋白序列
设置subject为基因组序列
设置输出文件,注意确保输出结果文件后缀为「.tabblastn」
点击Start
很快你会得到输出文件,直接从「File」菜单中导入「IGV」即可。
当我们放大这些比对上的位置,可能会看到
可以看到,输入序列比对到四个同一家族的成员,中间的那个,很有可能是错误注释。
可视化基因结构
比如我现在有一个CDS,我可以直接比对到这个region,看看他的基因结构。
图片中,我只做了三步操作:
点击一下其中一个转录本的形状,这是在IGV改造八中增加的特性,点击一下,直接在剪切板中获得CDS序列,很多人为此抓狂
黏贴CDS序列到TBtools的Query Seq,其他的不修改
点击Start,随后载入IGV
我们可以看到,BlastN整体上复现了原来的基因结构,说明还是不错。
不过,一切基于纯粹的文本比较无法100%结构正确,这个问题以前分享过。
写在最后
洋洋洒洒,又是一篇推文。IGV的设计是很不错的。可能IGV的代码也是我看的第一份Java源码,毕竟,我当初是因为从零写了两个基因组浏览器,效果实在是不如IGV才来看他。我天真的以为IGV不会调用太多的第三方包。然而事实正好相反。可能这就是我个人思维的局限吧。
希望各位也明白,很多时候,你不用自己厉害,你身边的人厉害就可以了。
更或者,【是努力?还是机遇?让你走的更高呢?】
这是一个开放的问题,但是也是一个Closed的问题。因为打开展开来说,只会有两种结果:
鸡汤
毒鸡汤
那么就到这里,祝各位明日开工大吉。