【直播】我的基因组 29:统计1000 genome hom-het ratio
在千人基因组计划的ftp服务器下载所有个体的突变信息文件如下:
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502
其中MT(线粒体),X,Y染色体比较特殊,Y染色体不可能有杂合的variation,当然这是从理论而言。
这些文件本质上也是vcf格式的文件,只需要对vcf文件有足够的了解,就很容易从里面提取出纯合和杂合的信息,而且也还区分的出snp或indel,脚本略微有点复杂,我这里就不列出了。(可以去生信技能树论坛上面看我的代码:http://www.biotrainee.com/thread-609-1-1.html ,或者点击阅读原文查看)
重点就是要明白第9列后面的是一个个样本,我们只需要关注 0|1、1|0、1|1 这3种情况就好了。请自行阅读vcf说明书:VCF (Variant Call Format) version 4.1
GT : genotype, encoded as allele values separated by either of ”/” or “|”. The allele values are 0 for the reference allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on. For diploid calls examples could be 0/1, 1|0, or 1/2, etc.
但是值得注意的是”/” or “|”分割是不一样的,前者不需要care每个allele来自于哪条染色体,后者缺不一样。(应该是只有在大人群队列里面才能做到区分染色体来源的allele吧!)
直接给出结果吧,对snp来说,每条染色体的杂合/纯合的范围如下:
由图可以看出,千人基因组计划的2540个人里面的 snp位点的het/hom的范围是1.5~1.8,暂时没有考虑人种的区别,但可以说明,我的vcf文件没有问题,是正常的。
文:Jimmy
图文编辑:吃瓜群众