比对到hg19和hg38对somatic变异的寻找影响很大
我的bam文件如下:4.0G Mar 29 06:18 B_marked_fixed.bam3.8G Mar 29 13:22 D_marked_fixed.bam4.5G Mar 29 07:26 T_marked_fixed.bam其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。从这个bam文件可以看到这个WES测序深度不够高,可能平均就 50X吧,如果是 200X的WES数据的bam应该是有20G左右文件大小。了解hg19和hg38参考基因组异同需要知道hg38这个新版参考基因组到底进步在哪里。(自行搜索咯)首先看somatic mutation个数统计得到的统计学显著的somatic mutation个数如下:278 D_varscan.snp.Somatic.hc222 T_varscan.snp.Somatic.hc200 d_varscan.snp.Somatic.hc174 t_varscan.snp.Somatic.hc如果只看有可能是somatic mutation个数如下:1426 D_varscan.snp.Somatic1375 T_varscan.snp.Somatic1071 d_varscan.snp.Somatic1001 t_varscan.snp.Somatic其中大写字母的文件代表是比对到了hg19,小写字母的文件是我比对到hg38后跑varscan得到的。可以看到,如果是比对到hg38参考基因组的,那么找到的变异位点要稍微少一点点,不过我意识到参考基因组的有一些是非染色体的片段,所以我重新看了看染色体个数分布情况。hg38hg19chrhg38hg19chr101818161812281425934737204822467569547610196567213745824828911297151031410610114511710129101215130113141427142615241597164151621617913172518131816191618192720762071021114211222322213X2228X417Y420Y104215sum136276sum左边的是T样本,右边的是D样本,可以看到,换成hg38这个新版人类的参考基因组之后,找到统计学显著的somatic mutation个数显著减少了。当然了,仅仅是看个数,意义不大,我们需要仔细分析位点。然后具体到位点首先可以借用一系列网页工具:用Mutation-Assessor软件来看突变位点对基因或者蛋白功能的影响 比如输入 hg19,13,19447703,C,T 但是一般是看protein-coding基因上面的情况snp-nexus 网页略微有点复杂或者把位点当做peaks来注释:http://52.32.26.75:3838/peaks_annotation/可以使用homer来进行注释其实如果这个位点位于dbSNP数据库,那么接下来一切查询都可以基于rs ID号来进行关联,虽然 rs ID号 也会有些微变化。因为具体到位点,就涉及到课题组信息了,不便公布,但是思路给大家了,可以是坐标转换,或者以 rs ID号 进行关联比较。最终其实要载入IGV去一对一比较,而且varscan软件给的high confidence的somatic mutation也需要注意,它默认P值卡的是0.05,其实一刀切并不好。更多以上我仅仅是比较了在50X这个测序深度下,VARSCAN软件基于不同参考基因组版本的表现问题。还可以探索不同的软件,或者不同的测序深度。我这里只是想说,对配对的WES数据来说,找somatic mutation这件事,值得仔细检查,假阳性问题比较严重。测序深度太低的数据,找somatic突变真是头疼