基因组中是否存在未被DNA测序覆盖的区域(学徒翻译)
原文链接:https://medium.com/musings-of-scientist/how-well-do-we-know-our-reference-genome-6a72ab4aa76e
如果基因组是一幅风景,你可以通过NGS创建该景观的地图,那么这幅地图肯定会有一些白色区域。换言之:一些基因组区域不能很好地被NGS技术测序的DNA所覆盖。在此,我们将解释这一点的重要原因。
重复DNA序列
重复DNA序列(例如串联重复序列)在许多物种中广泛存在。大约50%的人类基因组由重复序列组成(1)。重复是序列比对和组装程序的挑战,因为它们导致非常相似的短读取。它可以比作一个大拼图,其中一些拼图块可以放在几个地方。因此,重复会在比对和组装中造成歧义,反过来,它也会在解释结果时产生偏差和错误(1)。
G/C偏差
四种碱基(ACTG)在基因组中通常分布不均匀。具有高和低GC含量的DNA区域难以扩增,因为与具有混合碱基含量的DNA区域相比具有更高的稳定性。在这些情况下,DNA聚合酶易产生伪影。这些影响扰乱了大多数协议所需的扩增步骤。因此,来自具有高/低GC含量的区域的片段的表现不足,导致读取覆盖率低且不均衡(图1)。
一个常见的例子是恶性疟原虫,一种疟疾病原体。其基因组的一些编码区具有70%的AT含量。因此,直到最近,才有可能对寄生虫的基因组进行测序。目前的项目试图通过使PCR(扩增)产生的假象最小化或放弃扩增步骤(2)来改善这些区域的测序。
图1:在各种扩增条件下的全基因组碱基组成偏差曲线,线性尺度。 图片来自(3)。
碎片偏差
如该文(https://www.ecseq.com/support/ngs/is-there-a-bias-after-dna-fragmentation)所述,DNA片段化是一个非随机的过程,特别是对于机械剪切方法。这导致各种基因组区域的不均匀覆盖,并且可导致欠/未覆盖区域。
总结
这些实例表明,使用NGS进行准确的DNA测序还存在许多技术难题需要解决。有时可以通过调整样品制备(例如DNA片段化)或测序过程本身(如恶性疟原虫所述)来减少问题。此外,为项目考虑不同的测序技术总是一个好主意。
之前发布了学徒招募,广受关注,得到了各路好友的大力宣传,大家对我是如何带学徒的细节比较感兴趣,所以简单介绍一些。