高大上的生信技能:染色质构象捕获

高中我们就知道DNA结构包括一级的碱基排列、二级的双螺旋结构、三级的超螺旋结构。那您知道什么叫染色质构象吗?您知道染色质构象的功能吗?您知道如何解读染色质构象吗?

染色质构象概念

DNA一级结构除了A、T、C、G四种碱基构成的序列,还能发现转录因子结合位点、甲基化位点、组蛋白修饰位点以及变异位点等生物学信息。二级结构主要指的是local nucleosome–nucleosome interactions,即整合组蛋白修饰等一级结构和结合DNA的蛋白去调控DNA的可接近性、染色质压缩和染色质纤维的物理性质等生物学过程。而三级结构是指远程3D染色质互作和构造,其主要意义在于挖掘维持机体正常活动的基因受到哪些基因功能元件的调控,比如enhancer。总的来说就是染色质构象(图1),这种架构在基因的转录、调控中起着非常重要的作用。

图1  染色质结构示意图

基因功能元件互作

生物体有各种基因功能元件,包括顺式作用元件(cis-acting element)和反式作用元件(trans-acting element),顺式作用元件包括启动子、增强子等。启动子一般位于结构基因5'端上游,是RNA聚合酶特异性识别和结合的一段DNA序列,与结构基因物理距离很近,通常与转录因子结合来调控结构基因的表达。而增强子是增加同它连锁的基因转录频率的DNA序列,其在基因组上的定位多变,可能位于基因的5’端,也可位于基因的3’端,有的还位于基因的内含子中,甚至远离靶基因高达几千kb也仍有增强作用。那么问题来了,增强子离靶基因那么远,它是怎么起到调控作用的?据研究发现,像增强子这种远距离元件主要是通过染色质压缩等高级结构的形成导致与靶基因空间距离的靠近而起到调控作用的,如下图的A和C,在物理距离相聚较远,但是线条的折叠反而给A和C营造了互作的机会,是不是很神奇呢(图2)。

图2  基因功能元件互作示意图

染色质构象捕获技术

在研究基因元件互作时,生物学领域有一个专有名词叫“染色质构象捕获技术”。从2002年Deker提出3C,随着研究水平的提升和测序成本的降低,后续逐渐衍生出4C、5C、CHIA-PET、Hi-C、Capture Hi-C等技术。

图3  染色质构象捕获技术流程图

这些技术在前期样本互作状态固定所采用的方法一致,只是后续根据研究精度的需求涉及酶切、环化等不同处理(图3),具体功能表现如下表:

表1  常用染色质构象捕获技术

互作矩阵展示

纵观各种染色质构象捕获技术所采用的分析方法,万变不离其宗,均是绘制观测互作矩阵(observed interaction matrix),即对最终有效的contacts(下机数据质控后,剩下合格的每一个read pair即为一个相互contact)按照一定的分辨率进行统计后的互作矩阵(图4)。总的趋势是线性距离近的染色质之间有更强的交互作用,线性距离远的染色质之间交互作用弱。在热图中,强的交互作用由深红色表示,弱的交互作用由浅红色表示。

图4  10kb分辨率下的互作图谱

嗯,图是挺好看的,好多小三角形,这是在玩七巧板吗?作为生信小白的我,表示理解有限。很多人是不是和小编一样直接歇菜,哭晕在厕所……

现在,生信大神教您解读互作矩阵这座“金字塔”。例如,A、B、C genes位于同一条染色体上(图2),假设A、B、C三者之间彼此存在互作,把互作的两个基因连线形成一个等腰三角形,在三角形顶角用颜色深浅来表示互作的强弱,然后根据统计的支持A和B互作、A和C互作的contacts数多于支持B和C互作的contacts数,我们就将A和B、A和C三角形顶角涂成深红色,而B和C涂成粉色。如果增加染色体上的基因数目,10个、20个……100个,那么这些三角形就会越来越多,密集排布后就会出现图4的互作矩阵图了。这样理解起来是不是很简单呢!

(0)

相关推荐