【直播】我的基因组80:为什么有些基因的内部测序深度差异如此大

这一讲里,我们依旧根据统计的基因测序的深度进行一下讨论,来看看为什么有些基因的内部测序深度差异如此大?

在前面我们的计算中,s列表示的是基因的每一个坐标的测序深度的方差,所以代表着基因的内部测序深度差异值。

在正常WGS中,每个基因的各个部分测序深度应该趋近于一致,可以形成一条直线。但是如果基因太长,内部GC含量不一致,那么每个基因的各部分测序深度可能就不一样了,而且有些基因可能是部分序列重复,这样的话这个部分序列就会被超量测序。不过,基因内部的部分缺失不会反应在S值里面,因为没有计算那些未被覆盖的基因区域。

对于前面的分析结果,我们可以简单的画一下s值跟基因的平均测序深度,基因长度,GC含量的关系,如下:

可以看到基因的S值(基因的内部测序深度差异)跟基因长度是没有关系的,这个很容易理解,因为S是方差,在公式里面本身摈弃了基因长度的影响。

但是S值跟测序深度和GC含量的关系,我只能画在这里,并不知道如何去解读。

而且这个图做的不好,应该对那些点加上透明度,尤其是0~200这个S值之间的点太过集中了。

接下来,我们简单看一下,S最大的基因是哪些吧,然后我们再一一解读:

MUC3A前面测序深度那一讲我就说了,这里就略过哈。它的问题反正在于,家族基因不清不楚。而且它的GC含量也太低了一点!!!

再排除几个覆盖度不够的基因,那么只剩下TMEM242 基因啦,它的英文介绍如下:

TMEM242 gene (Protein Coding), Transmembrane Protein 242

The C6orf35 protein has a conserved domain of unknown function pfam 07096, DUF 1358., which covers the first 121 aa of the protein. This domain is conserved in eukaryotes.

这个基因以前叫做C6orf35,这个名字我在论坛说过几次啦。在我的这次WGS数据里面,它的平均测序深度并不算太高,就77X而已,GC含量也不是太离谱,56.6%。为什么基因上面每个坐标的测序深度的差异性那么大呢?我在IGV里面定位到了它,仔细一瞧,有一个片段测序深度高达1000~2000,好可怕~~~~

然后看了看NGB这个基因,也是同样的问题,就是局部片段测序深度高的不正常,我可能需要再查查资料才能明白到底是什么原因。

(NGB)This gene encodes an oxygen-binding protein that is distantly related to members of the globin gene family. It is highly conserved among other vertebrates. It is expressed in the central and peripheral nervous system where it may be involved in increasing oxygen availability and providing protection under hypoxic/ischemic conditions.

除了了有基因的内部测序深度差异非常大的,还有一些基因内部测序深度基本没有差别的,比如下面几个基因,首先它们的基因长度都很短,这样的话,一个PE的reads就把它们给覆盖完了,整个基因的所有坐标都在同一堆reads上面,那么内部差异想大也打不起来了哦。

在于那些基因的内部测序深度差异如此大的基因,基因长度就没那么重要了,可能是基因内部GC含量非常的不平衡或者其它,这就需要进一步的分析了。

(0)

相关推荐