【直播】我的基因组 30:使用软件把变异分类—添加tag
前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变异的基本分类,我们就需要自己做了,就是把第八列丰富起来。而且上一讲我们自己用脚本探究了一下VCF变异文件里面的测序深度分布,质量值分布,INDEL和SNV的分布,还有杂合和纯和的比例。其实也不用自己造轮子,现成的工具就可以做到:http://snpeff.sourceforge.net/SnpSift.html#VariantType
这个软件用法很简单
java -jar ~/biosoft/SnpEff/snpEff/SnpSift.jar varType realign.vcf >realign.varType
一小会儿就运行完毕了。
可以看到文件大小没有显著的变化,因为它仅仅是在VCF文件上面,增加一些tag即可。从本质上来说就是对于VCF文件定义的理解。
它首先把variation分成这几类:SNP、MNP、INS、DEL、MIXED(不理解的补充一下基础知识)
然后再区分纯和杂合:HOM/HET (跟上一讲是一样的)很明显判断纯和和杂合,靠的就是GT这一列的信息了。结合DP4来做判断,或者直接用GT信息即可。
那么接下来就对它注释好的tag进行统计即可。
cat realign.varType |perl -alne 'next if/^#/;/VARTYPE=(.*?)\s/;print $1' |sort |uniq -c
结果略微有一点诡异,虽然纯和杂合的比例,跟前面得到的结果类似。但是variation的分类我有点晕,得仔细探究那些多种分类是怎么回事!
我搜索了DEL、DEL、DEL、DEL的那6个情况,发现了一个奇怪的现象(如下图),有知道原因的请留言给我哦。
文:Jimmy、阿尔的太阳
图文编辑:吃瓜群众