三维基因组学习笔记

本周受邀来武汉菲沙基因参加三维基因组学习研讨班,所以更新该系列该领域基础知识以及一个实战项目的方方面面,测试数据以及流程软件的解说,希望大家喜欢!

首先看看该领域到底有多火把:

2014年的文章就被引用1455次!

基础知识学习

  • 背景知识

  • 定义:

    • 三维基因组学是以研究真核生物核内基因组空间构象,及其对不同基因转录调控的生物学效应为主要研究内容的一个新的学科方向;也是后基因组学时代研究的一个热门领域。它的研究重点是空间构象与基因转录调控间的关系。通过三维基因组学技术,科学家将能对基因组的折叠和空间构象、转录调控机制、复杂生物学性状、信号传导通路和基因组的运行机制等一系列重要问题进行更深入的探讨和研究,为系统解读生命百科全书和精准生物学的实施奠定坚实基础。本文综述了目前三维基因组学研究领域中的主要技术、研究现状、科研进展、存在问题、未来及与精准生物学的关系等内容。以期能较系统地展示三维基因组学取得的一系列成果,解读从三维空间构象信息到不同基因功能研究的路径,精准决定在转录调控网络中不同基因表达的时空特异性的可能模式。

    • 摘抄自:国生物化学与分子生物学报 2018, Vol. 34 Issue (4): 351-363 DOI: 10.13865/j.cnki.cjbmb.2018.04.01

  • 具体三维基因组故事也可以看生信技能树的帖子:http://www.biotrainee.com/thread-2254-1-1.html

  • 必知必会名词解释:

    • 人类基因组计划( human genome project,HGP)

    • 人类基因组百科全书计划”( encyclopedia of DNA elements,ENCODE)

    • 染色质疆域( chromosome territories )

    • 染色质区隔( chromatin compartment ,包括活跃或非活跃区)

    • 染色质环(Chromatin Looping)

    • 当染色质相互作用矩阵精度提高时,我们能看到更为精确的染色质结构。Dekker(Rao, Huntley et al. 2014)等人在1kb精度下,发现了染色质中存在环状结构。Loop的两端由CTCF结合位点构成,环状结构对于调控基因表达具有重要的作用。

    • 拓扑相关结构域(Topological Associated Domains, TAD

    • 每个染色体内部还存在更小尺度(平均约800 kb)的拓扑相关结构域

    • TAD内部的DNA元件之间形成了较为紧密的相互作用,而不同TAD之间的相互作用则较弱

    • 相邻TAD的边界上结合有染色质结构蛋白,如CTCF蛋白、cohesin蛋白复合体等,这些蛋白起到组织染色质结构并隔离两个相邻的TAD之间互作的功能

  • 表观调控

  • 真核生物细胞核中的染色质通过折叠成高度动态、复杂的高级结构,调控基因的转录、复制,以及损伤修复等重要功能。

  • 生命体的遗传功能元件,包括编码基因、非编码基因、顺式调控元件等,在空间结构上,并不是在染色体上呈线性地一字依次排开,而是随着DNA形成复杂高级结构的同时,具备了三维组织形式。

  • 转录调控元件主要包括启动子、增强子、绝缘子及抑制子。

  • 针对转录调控元件的这些特点,可通过下面的技术来检测转录调控元件。

    • 捕获转录相关蛋白结合区域 [ChIP-seq (Johnson et al., 2007)]

    • 捕获染色质开放区域 [DNase-seq (Boyle et al., 2008)

    • FAIRE-seq (Giresi et al., 2007)

    • MNase-seq (Schlesinger et al., 2013)

    • ATAC-seq (Buenrostro et al., 2013)

    • NicE-seq(Ponnaluri et al., 2017)]

  • 三维基因组研究技术的应用

  • 应用一:疾病发生机制

    • 为了探测乳腺上皮细胞和乳腺癌细胞的全基因组染色质结构,从MCF-10A和MCF-7细胞系分别构建了来自两个独立生物学重复样本的Hi-C文库。结果发现人乳腺上皮细胞系MCF-10A,在chr16-chr22号小染色体中,有较强的相互作用。在250 kb的分辨率下,MCF-10A和MCF-7基因组显示出开放和闭合区室的相似分布。只有一些区域有A到B区室或者B到A区室的转化,这些转化区域中的很多基因和癌症重要通路WNT相关。不同细胞系中约有85%的TAD边界是相同的,用40kb分辨率来鉴定TAD边界,发现一些TAD边界是乳腺癌细胞系特有的。该研究绘制了两种细胞系染色质高级结构的全基因组视图,并提供了一种渠道,利用该渠道可以研究乳腺癌的两种细胞系中的染色质相互作用。

    • 北大李程课题组比较了骨髓瘤细胞与正常B细胞之间的TAD的差异,在GM12878,RPMI8226与U266三个细胞系中,我们分别得到了2756,3457,3342个TAD,其中有1281个TAD在三个细胞系中保守存在,740个TAD特异的存在于两种骨髓瘤细胞系中,这些数据表明在癌症细胞中TAD的结构会发生相当比例的改变,同时TAD的长度变小,数目增多。作者进一步对骨髓瘤细胞与正常B细胞相比发生compartment改变区域内的基因进行了信号通路富集分析,结果表明,富集到的信号通路与骨髓瘤都密切相关,包括了MAPK,TNF,cytokine-cytokine受体相互作用等信号通路。

  • 应用二:细胞发育分化机制

    • 有研究报道了哺乳动物染色体三维结构在着床前胚胎发育过程中的动态重编程过程。对小鼠卵母细胞和植入前胚胎发育中染色质的结构特征进行研究发现,精子保有而MII期卵母细胞缺乏经典的染色体compartments和TADs结构。在受精后染色质三维结构首先呈现出一种非常松散的状态,两套来自亲本的基因组在空间上部分分离且compartments也有所不同,这种差异持续到8细胞期。在随后的胚胎早期发育过程中染色质高级结构逐渐以亲本特异的方式建立和成熟,并且不完全依赖于合子基因组的转录激活。

    • 采用Hi-C技术绘制了斑马鱼胚胎发育过程中的基因组三维结构特征及其动态变化,发现在发育的早期,当转录还未发生时,其三维结构已经建立。合子基因组激活(ZGA:zygotic genome activation)之后,三维结构发生变化,有些高级结构消失了,而在发育后期这些结构再次重新建立。Hi-C比较4个不同发育时期:2.25 hpf (ZGA之前)、4 hpf (ZGA之后)、8 hpf (原肠胚形成)、24 hpf (器官形成)。与已发表的RNA-seq、ChIP-seq、ATAC-seq联合分析。

三维基因相关技术

技术种类繁多,上图来自于:

中国生物化学与分子生物学报  2018, Vol. 34  Issue (4): 351-363    DOI: 10.13865/j.cnki.cjbmb.2018.04.01

    • 来源于 菲沙基因公司宣传公众号,总结了一些基础技术的优缺点,以及异同点。

      • 参考文献:http://dx.doi.org/10.1016/j.cell.2012.02.019 值得打印出来看看

      • 参考文献 3C and 3C-based techniques: the powerful tools for spatial genome organization deciphering. Molecular Cytogenetics (2018) 总结了下面这些技术

      • ✦ 3C (Chromatin Conformation Capture),染色质构象捕获

      • ✦ 4C (Circularized Chromatin Conformation Capture), 环状染色质构象捕获

      • ✦ 5C (Chromatin Conformation Capture Carbon Copy),染色质构象捕获碳拷贝

      • ✦ Hi-C(High-throughput chromosome conformation capture),高通量染色体构象捕获

      • ✦ ChIA-PET: Chromatin Interaction Analysis by Paired-End Tag Sequencing,配对末端标签测序染色质互作分析

    • 细分技术列表

      • HiChIP (Mumbach et al., 2016)

      • 单细胞Hi-C技术也逐渐被开发 (Flyamer et al., 2017; Nagano et al., 2013; Ramani et al., 2017)

      • PLAC-seq (Fang et al., 2016)仅能捕获某一种蛋白介导的染色质间的相互作用;

      • Capture Hi-C技术通过特异性探针,捕获探针所在区域(如启动子区)染色质间相互作用 (Mifsud et al., 2015);

      • OCEAN-C(Open Chromatin Enrichment And Network Hi-C)技术

      • 是结合了 FAIRE-seq 技术及 Hi-C 技术的关键步骤而开发的一种可以不依赖蛋白抗体及靶序列的新技术。

      • 在OCEAN-C技术中,染色质首先被甲醛交联;

      • 随后,染色质被限制性内切酶(MboI)消化;DNA末端修复时引入带有生物素标记的脱氧核糖核苷酸;

      • 随后空间存在相互作用的DNA被连接;超声打断染色质后,开放染色质被酚-氯仿抽提;

      • 最后,存在相互作用的开放染色质因为有生物素信号,可以被富集用于后续文库构建。

  • HI-C实验原理及步骤

  • Job Dekker等人在2009年发表于Science的文章首度开发出了Hi-C技术,基于高通量测序研究染色质空间构象的新技术。

  • Hi-C是3C的衍生技术,是基于将线性距离远、空间结构近的DNA片段进行交联,并将交联的DNA片段富集,接着进行高通量测序,对测序数据分析即可揭示染色质的远程相互作用,从而推导出基因组的三维空间结构和可能的基因之间的调控关系。

  • Hi-C适合测试所有的包括特异和非特异性的交互作用,因此是全方位的,但其分辨率较低,且噪声高。

  • 综述文章会说的很清楚

    • 看jove的视频:https://www.jove.com/video/1869/hi-c-a-method-to-study-the-three-dimensional-architecture-of-genomes

    • 用甲醛对细胞进行固定,使DNA与蛋白,蛋白与蛋白之间进行交联

    • 进行酶切(如Hind III等限制性内切酶),使交联两侧产生粘性末端

    • 末端修复,引入生物素标记,连接

    • 解交联,使DNA和蛋白、蛋白和蛋白分开,提取DNA,打断,捕获带有生物素标记片段,进行建库

    • 测序

  • Hi-C衍生技术

    • 原位连接In situ Hi-C( 2013)

    • 单细胞Single-cell Hi-C( 单细胞Hi-C 技术)

    • 杂交探针Capture-Hi-C ( 2014 )

    • 高效酶切DNase Hi-C( 2015)

    • 高效酶切与杂交探针结合的DNaseCapture-Hi-C

    • 以及原位连接与高效酶切结合的in situ DNase Hi-C( 2016)

    • 单细胞Hi-C 技术

  • HI-C数据分析常用的工具

  • 数据处理流程:

    • 1、质控、过滤,进行序列比对

    • 2、筛选出有效的比对片段,配对的reads位于酶切位点两端且map方向相反

    • 3、整合read pair在基因组上的交互强度,形成互作矩阵

  • 软件大全来源于:https://omictools.com/3c-4c-5c-hi-c-chia-pet-category

    • 一.数据标准化

    • 1.HiCNorm

    • 2. ICE

    • 3.HiC-Pro

    • 二. TAD鉴定

    • 1. HiCseg:Modelsthe uncertainty in Hi‐C data

    • 2. TADbit

    • 3. DomainCaller

    • 4. InsulationScore:Robustto different sequencing depth; can detectdynamics of TAD boundaries

    • 5. Arrowhead:Highcomputational efficiency with dynamicprogramming

    • \6. TADtree

    • \7. Armatus:TADcalling robust in different resolutions

    • 8. Topdom

    • 三.交互片段鉴定(interaction)

    • \1. Fit-Hi-C:Accuratebackground model using non-parametricspline

    • \2. GOTHiC :Modelscontact-frequency uncertainty as binomialdistribution

    • \3. HOMER

    • \4. HIPPIE

    • \5. diffHic

    • \6. HiCCUPS:Designedfor high-resolution Hi‐C data

    • 四.3D构象:

    • \1. 3D-GNOME

    • 2.Tadbit

    • 五.可视化:

    • 1.HiCPlotter

(0)

相关推荐