染色质调控区域的研究: 对CHIP-seq和ATAC-seq发展的深入思考
摘要
染色质调控区域在许多疾病过程和胚胎发育中起着关键作用。表观基因组测序技术,如染色质免疫共沉淀测序(CHIP-seq)和转座酶开放染色质高通量测序(ATAC-seq),使我们能够通过检测特定的染色质状态及其相应的转录因子,在时间和空间维度上剖析细胞和组织的基因组调控格局。随着染色质免疫共沉淀芯片(CHIP-chip)技术的发展,大量的表观基因组分析技术已经出现,如CHIP-seq、DNase I超灵敏位点测序(DNase-seq)、ATAC-seq等。单细胞测序的出现使下一代测序发生了革命性的变化,在单细胞表观遗传学中的应用迅速丰富。表观基因组测序技术已经从低通量发展到高通量,从批量样本发展到单细胞范围,这对科学家从不同角度解读生命带来了前所未有的好处。本文在简要介绍表观基因组生物学背景知识的基础上,讨论了表观基因组测序技术,特别是ChIP-seq和ATAC-seq技术的发展及其在科学研究中的应用现状。最后,我们提出了未来应用和挑战的见解。
关键词:染色质调控区域、表观基因组测序、单细胞、发育生物学
介绍
DNA由组蛋白包裹着,组蛋白蛋白带有各种各样的修饰。组蛋白乙酰化是染色质修饰中最具特征性的修饰之一,与局部染色质结构的开放和转录激活相关(例如,H3K27ac与增强子相关)。与组蛋白乙酰化相比,组蛋白甲基化在功能和形式上都更加多样化。组蛋白甲基化包括H3K4me1、H3K4me3、H3K9me3、H3K36、H3K79等。赖氨酸的特异性甲基化可存在于不同功能的单甲基化、双甲基化或三甲基化。抑制性组蛋白甲基化,如H3K9me3,与凝集性和结构性异染色质高度相关。同时,活跃组蛋白甲基化,如H3K4me3,有助于激活转录。一些研究甚至揭示了一类兼具活性和抑制性的二价染色质,它显示出H3K4me3和H3K27me3的重叠模式。这种稳定基因的二价标签的发现是出乎意料的,也是非常重要的。例如,它可能是母体向受精卵转变过程中的一个关键里程碑,提供了关于“中间”状态的第一条线索。此外,二价染色质并不是胚胎干细胞所特有的,在其他类型的细胞中也有存在。在更复杂的情况下,在某些组织中充当启动子的元件可以在其他组织中充当增强剂,称为CRID(具有动态特征的顺式调节元件),并且相同的调节元件可以同时具有启动子和增强子特征。
更多的组蛋白修饰还包括磷酸化、泛素化、苏莫化和ADP核糖化。目前对组蛋白修饰的探索仍然存在以下问题:
1.组蛋白表面的修饰通常是动态的:一些修饰可以在细胞受到刺激后的短短几分钟内被添加和去除,因此在特定条件下的给定时刻一组细胞中检测到的组蛋白修饰实际上仅部分代表了潜在的修饰类型。
2.用于检测组蛋白修饰的抗体对于许多表观遗传染色质测序技术是必不可少的:例如,在CHIP-seq中,需要对组蛋白和转录因子进行抗体特异性检测。
3.组蛋白修饰的异染色质形成和扩散机制以及组蛋白修饰的“记忆”和“消退”的研究还很少。
4.组蛋白密码的概念在许多情况下不能广泛用于准确描述和预测特定的生物学现象.
5.某些组蛋白修饰在某些基因组区域是活跃的。相反,在其他区域有抑制作用:例如,H3K9基因座的甲基化在启动子区域是抑制的,而在编码区是活跃的。
与单一的组蛋白修饰不同,染色质调控区域是对染色质生物学功能的更高水平的诠释,它结合了组蛋白修饰、转录因子结合和基因组元件的调控功能。著名的 Road-map Epigenomics Consortium领导了大规模的人类表观基因组研究,对调控元件的功能状态提供了详细和准确的描述和分类。此外,通过将这些染色质表观基因组状态与现有的全基因组甲基化信息和RNA测序(RNA-seq)的基因表达谱相结合,科学家可以从多维的角度解释特定组织的表观基因组现象。
许多染色质动力学研究除了需要获得组蛋白修饰和基因组调控元件的信息外,还需要正确理解转录因子和染色质之间的相互作用,这对于理解发育和疾病进展往往是必不可少的。一些与染色质调节区结合的转录因子需要特定的组蛋白修饰,而另一些转录因子则需要开放染色质和其他激活子的辅助。一些转录因子与调控区域的结合促进了其他转录因子的聚集。它可能促进染色质的打开,从而进一步影响转录因子的结合。对其相互作用机制的深入研究还很有限,最近的研究通过构建合成读写模块来探索表观遗传调控机制,这将有助于我们更好地理解表观遗传的基本原理。
染色质动力学研究技术的进展
以CHIP为基础的研究方法
最早应用于大规模表观遗传学分析的技术是染色质免疫共沉淀(CHIP),然后是微阵列基因芯片杂交(chip)(CHIP-chip),它使科学家能够在全基因组范围内检测DNA-蛋白质的相互作用。CHIP-chip是基于微阵列杂交技术,在高密度芯片上种植覆盖一个基因组或特定区域的大量探针。但该方法存在分辨率低、探针设计要求较多、信号偏差大、难以广泛应用于更多物种等缺点。
与芯片相比,染色质免疫共沉淀测序(CHIP-seq)具有分辨率高、噪音小、覆盖面大等优点。随着第二代测序成本的快速下降,CHIP-seq将成为研究基因调控和表观遗传学不可或缺的工具之一。除了更好地鉴定序列基序外,芯片序列还可以用来寻找关键的转录因子、增强子和其他调控元件。
传统的CHIP-seq技术
对于DNA结合蛋白,CHIP-seq实验的目的是得到丰富的与特定蛋白结合的DNA。该过程包括多个步骤(图1A):首先通过甲醛原位交联DNA和蛋白质,然后将DNA超声处理成200-600bp的小片段;再用抗体免疫沉淀特定的DNA蛋白质复合物;最后去交联化DNA,释放的DNA经过末端修复、接头连接和其他文库准备步骤;最终,进行测序。
然而,CHIP-seq有一些局限性:聚合酶链式反应存在偏差;聚合酶链式反应扩增的长度有限;裂解和测序过程中的GC偏差;由于免疫沉淀过程的大量损失需要105∼107个细胞;以及由于甲醛交联过程而可能导致的隐蔽表位。甲醛可以将转录因子与DNA交联,保持它们在体内的结合状态,但它也可能掩盖转录因子的抗原表位,产生假阳性结果。这种甲醛交联CHIP也被称为X-CHIP。另一方面,自然CHIP(N-CHIP)不存在隐蔽表位问题,可以用于细胞数量很少时。这种方法放弃了甲醛固定,使用微球菌核酸酶(MNase)来消化染色质。MNase可以快速、温和地切断染色质DNA,最大限度地保留原始染色质结构和靶蛋白的结合,提高CHIP结果的可靠性。然而,当靶蛋白与DNA结合不强时,这种方法可能会导致许多结合位点的丢失,因此它通常用于组蛋白CHIP而不是转录因子。对于抗体依赖的表观遗传测序技术,选择合适的抗体往往是最关键的一步。在选择单克隆抗体或多克隆抗体时,由于受到其他蛋白质组分的干扰,单克隆抗体可能会产生微弱的信号。相反,多克隆抗体可能会产生不必要的假阳性。
图1 CHIP-seq和ATAC-seq的工作流程。a.在CHIP-seq中,染色质用甲醛交联并超声处理,得到200-600个碱基对的DNA片段。然后,目标DNA-蛋白质复合体可以被抗体免疫沉淀。文库制备步骤:末端修复、A-尾和接头连接、文库测序。b.ATAC-seq使用高活性的tn5转座酶识别开放染色质的区域,该转座酶优先插入到可接近的染色质中,并用测序适配器标记这些位置。
微量细胞的CHIP技术
传统CHIP-seq的主要限制因素是需要大量的细胞(105∼107个细胞)。在过去的几年里,已经采用了各种方法来优化实验,以测量低数量的细胞。化学印迹结合染色质免疫共沉淀和Tn5转座酶的测序文库制备。快速、低成本的文库制备允许组蛋白CHIP-seq使用10,000个细胞。基于超低输入MNase的自然CHIP(ULI-NChIP)通过调整NChIP程序,生成从103个胚胎干细胞到106个胚胎干细胞的高质量组蛋白修饰图谱。基于微流控振荡洗涤的CHIP-seq(MOWChIP-seq)甚至可以应用于仅用100个细胞的组蛋白修饰的全基因组分析。虽然这些方法可以在少数细胞中产生相对准确的组蛋白修饰图谱,如H3K4me3,但它们对许多转录因子无效,因为基因组上的结合位点较少。
靶下切割和核酸酶释放(Cut&Run)与CHIP-seq一样,用于检测DNA与蛋白质的相互作用,它不需要甲醛交联和超声切碎,而是利用融合到蛋白A/G上的Mnase来原位切割和释放目标DNA片段,从而显著提高信噪比,并且可以应用于低至100~1000个细胞中。超低输入的CUT&RUN(uliCUT&RUN)将该方法进一步提高到单细胞水平。研究人员发现,通过这种方法,CTCF在hESC细胞中的结合位点较为集中,而H3K4me3占据的区域相对较广。同时,对SOX2和Nanog的结合模式以及胚胎早期发育中的其他重要转录因子也进行了精确的描述。
靶标下切割和标记(Cut&Tag)是另一种可以在低细胞输入样本甚至单个细胞中检测DNA-蛋白质相互作用的技术。Cut&Tag用蛋白A/G融合的Tn5转座酶(pA/G-Tn5)来切割DNA,而不是蛋白A/G融合的Mnase,这对核心酶的质量要求很高。该核心酶pA/G-Tn5对微量DNA具有高活性、高灵敏度和高亲和力,并能有效捕获少数细胞中有限的结合位点。Cut&Tag的另一大特点是,在添加刀豆蛋白A之后,所有的文库制备步骤都在同一管中进行。因此,测序数据具有较低的背景。所以,与切割Cut&Run相比,Cut&Tag不需要末端修复和附加接头,变得更容易和更有效。由于pA/G-Tn5能在不同条件下结合和切割非特异性开放染色质,Cut&Tag有可能通过改变缓冲液组成同时结合一些开放染色质和特异性转录因子结合位点。然而,在更科学的背景下,非特异性DNA切割是对所需转录因子测定的干扰,在这些背景下,需要结合已知的开放染色质数据来消除这些干扰。通常不建议使用过于复杂的数据,因为结合其他数据以消除背景通常会带来批量效应。
单细胞CHIP-seq
与批量CHIP-seq不能检测单个细胞的染色质特征不同,单细胞ChIP-seq(scChIP-seq)有助于研究异质细胞群体中的遗传多样性,并了解肿瘤群体的进化。液滴单细胞ChIP-seq(Drop-CHIP)将微流控设备与单细胞DNA相结合,使研究人员能够获得相对较低的每个细胞覆盖率图。基本实验程序包括四个步骤(图2a):1)液滴形成:包裹在液滴中的每个细胞与裂解物和MNase混合;然后细胞裂解成液滴,其染色质被碎裂;第二个编码液滴包含用于连接到染色质片段的DNA编码。将这两个液滴混合,形成一个分度微反应器。2)液滴中的核小体编码区。3)核小体编码区的免疫沉淀。4)文库构建和测序。下游数据分析流程类似于单细胞RNA-seq。ScChIP-seq基于染色质功能的多样性和每个群体特有的染色质特征的鉴定来实现细胞群体的聚集,例如某些细胞中H3K27me3标记的丢失可能与化疗耐药有关。然而,由于单个细胞产生的数据过于稀少,需要数千个细胞才能获得良好的聚类结果。
在很大程度上减少细胞投入的表观基因组学工具,包括Cut&Run和Cut&Tag,并不一定比CHIP-seq表现更好,这取决于具体情况。单细胞CUT&Tag和单细胞 ATAC-seq (scATAC-seq) 都依赖于一种名为Takara ICELL8的特殊设备。基于微流控的Drop-CHIP每个单元只能产生大约1000个数据,过于稀疏的数据加上昂贵的设备限制了它的应用。因此,迫切需要一种适用范围更广、性能更稳健、成本更低的低丰度细胞甚至单个细胞的CHIP方法。基于单细胞同时索引和标记的CHIP-seq技术(sc-itChIP-seq)是一种基于芯片的高分辨率技术,其实验步骤是通过FACS(荧光激活细胞分选)对固定细胞/天然细胞进行全基因组染色质开放,使Tn5能够均匀地切断DNA。释放的DNA片段通过免疫共沉淀得到富集(图2b)。单个细胞的DNA-蛋白质相互作用可以通过解复用和解链编码获得。所有的文库准备步骤都在同一个管中进行,这大大减少了损失。sc-itChIP-seq可用于鉴定分化过程中的谱系特异性增强子和关键转录因子。科学家们已经应用这种方法成功地鉴定了幼鼠胚胎干细胞的表观遗传轨迹,并揭示了决定心脏祖细胞命运的谱系特异性增强子的重编程事件。鉴于sc-itChIP-seq不依赖昂贵的设备,它在实验室中的应用比以前的scChIP-seq更广泛(表1)。
组合条形码和有针对性的染色质释放(CoBatch)不仅可以描绘出细胞输入量相对较低的样品的表观遗传概况,而且还可以应用于具有高信噪比的自然或固定状态的数千个单细胞的规模。这种方法使用了一种名为PAT的酶,它是Tn5转座酶的N端与蛋白A的融合。用抗体孵育的细胞分布在孔中(每孔200~2000个细胞),然后加入不同的PAT进行第一轮试验。所有细胞被汇集并重新分配到不同的孔(每孔20~25个细胞),最后用不同的PCR引物进行第二轮扩增(图2C)。利用coBatch产生的单细胞数据,研究人员成功地实现了对内皮细胞和间充质细胞等细胞类型的高通量鉴定,深入揭示了内皮细胞群体的异质性。然而,这种方法的缺点是它不能直接应用于低至十几个细胞的样本,如植入前胚胎。
表1单细胞CHIP-seq方法比较
图2单细胞CHIP-seq工作流程。a.Drop-CHIP的工作流程。b.sc-itChIP-seq的工作流程。FACS:荧光激活细胞分选。NGS:下一代测序。c.coBatch的工作流程。PAT:Tn5转座酶N端与蛋白A的融合(Pa-Tn5[PAT])
核小体定位与染色质开放性
研究开放染色质区域最经典的技术之一是DNase I超敏位点测序(DNase-seq)。DNaseI具有核酸内切酶活性,可通过控制切割效率获得适当长度的开放染色质片段。DNaseI被用来切割基因组上的DNA酶敏感部位。然后,对消化的片段进行扩增,分析测序数据中的峰,以获得相对开放的染色质区域和蛋白质保护区域的信息,这些区域通常是转录因子结合的位点。
MNase-seq用于探查核小体定位,并使用MNase消化进行染色质片段化而不进行交联的实验。与DNase不同,MNase与开放染色质结合后既具有核酸外切酶活性,又具有核酸内切酶活性。它会直接消化DNA,直到遇到特异因子和核小体,然后去除接头DNA,这使MNase-seq非常适合探索核小体的定位。Mnase-Seq需要了解合适的酶条件,不可避免地会导致难以控制的混杂因素,如序列结合和酶本身的酶活性所需条件不同。ChIP-seq、DNase-seq和MNase-seq分别测量转录因子图谱、染色质开放性和核小体定位。它们都需要大量的输入材料,并产生对细胞异质性不敏感的“平均”图谱,这极大地限制了这些技术在一些稀有和珍贵的样本中的应用,比如早期胚胎。此外,这些技术涉及复杂且耗时的样品制备和文库构建,并且不能直接研究核小体定位、染色质开放性和转录因子定位之间的相互作用。具体地说,最大的限制是:
1.高细胞输入掩盖了细胞群体间的异质性;对输入材料的要求限制了DNase-seq和MNase-seq在特定临床样本中的应用,并使其难以实现个性化的表观基因组学研究。
2.为了获得所需数量的细胞,细胞通常要进行体外培养以进行扩增。然而,体外培养并不能完全模拟体内的条件,会进一步添加可能导致染色质状态改变的外来因素,从而增加实验失败的风险。
ATAC-seq的发展
高通量测序(ATAC-seq)技术用于转座酶开放的染色质测定成功实现了开放染色质区域,核小体定位和调控基序的同时鉴定,同时将所需样品减少到500〜5000个细胞。利用基序推论,科学家成功地推论了B细胞系中DNA结合蛋白的结合位点。同样,ATAC-seq具有相对简单和有效的“两步”文库制备程序:转座和PCR(图1b)。在ATAC-seq实验中,细胞核分离后收集细胞核,细胞核内的染色质被Tn5转座酶片段化并连接到测序接头,从而大大简化了实验流程。紧密包装的染色质DNA不能进入转座体,而开放区域中的染色质DNA则随机插入并被转座体片段化。收集片段化的DNA用于后续分析。 ATAC-seq最重大的创新是Tn5转座酶的应用:Tn5转座酶的转座活性较低。为了在科学研究中更好地利用,在经过定向改进后,它可以变成对DNA具有更高亲和力的高活性Tn5转座酶。 Tn5转座酶可与设计的衔接子在体外组装,形成活性转座体复合物。尽管Tn5转座酶不可避免地会由于序列依赖性结合而产生偏倚,但这种转座偏倚可以通过开发计算工具来纠正。
ATAC-seq具有高效率和低细胞输入要求的优点,但是其对不同类型样品的适用性仍然受到限制。为扩展应用而产生的ATAC衍生技术包括fast-ATAC,Omni-ATAC和miniATAC-seq(图3)。例如,fast-ATAC针对血液样品进行了优化,使用含洋地黄皂苷的转座缓冲液将通透和转座这两个步骤组合为一个步骤。它不仅增加了每个细胞的片段产量,而且大大降低了线粒体读段的比例。 Omni-ATAC可应用于多种细胞类型和长期保存的冷冻样品。进行了改进,包括各种不同的去污剂,细胞裂解后用Tween-20洗涤,以及使用磷酸盐缓冲盐水提高转座反应中的信噪比。所有这些改进使Omni-ATAC可以应用到长期存储的各种细胞系,组织类型和冷冻样品中,同时提高了数据质量。miniATAC-seq主要针对DNA纯化步骤和裂解缓冲液(针对胚胎的NP-40最佳浓度)进行了优化,甚至可以通过高质量的测序数据应用于20个细胞(例如早期胚胎)中。 ATAC-seq程序的优化也已广泛用于神经组织和生物样本库中的细胞。
ATAC-seq可以测量低至500个细胞的样品,但是它无法在单细胞水平上破译细胞之间的差异。单细胞测序技术的出现使我们能够了解更精细的单细胞水平活动。从单细胞转录组测序中可以获得的信息非常有限,在单细胞水平上进一步研究调节元件的表观基因组动力学对于找出更详细的细胞分化和发育机制至关重要。2015年,开发了用于转座酶开放染色质测序的单细胞组合测定法(sci-ATAC-seq),可同时对大量单个细胞进行测序。在这种方法中,对细胞进行标记,并在单细胞水平上对染色质开放性进行测序。首先用特定编码标记的Tn5转座酶对96孔板中的所有核进行编码后,然后将核合并并重新分配到新的一组孔中。因此,可以通过PCR扩增添加第二个编码信息(图4a)。第一个基于微流体平台的scATAC-seq技术与Fluidigm单细胞平台C1(集成流体回路)集成在一起(图4b),这是一种用于研究单细胞染色质开放性的方法。与sci-ATAC-seq相比,它可以捕获每个细胞更多的数据,从而开启了对细胞间调节剂(regulome)多样性的探索。在Chromium平台(10×Genomics)上执行的液滴scATAC-seq(10×ATAC-seq)实现了scATAC-seq实验容量的前所未有的大幅提高(图4c)。将单细胞核悬液加到微流体中,以促进乳液(GEM)中的凝胶珠的形成。在每个GEM中,新设计的凝胶珠寡核苷酸包含29 bp的测序接头,16 bp的特定序列(用于标记液滴)和读取的1 N的前14 bp(线性扩增反应的引物),可实现数千个实验要测量的细胞。应用10×scATAC-seq,研究人员在肿瘤微环境内的免疫细胞中获得了差异开放染色质的更准确的定位。为了解释与单细胞RNA-seq数据相比较少的scATAC-seq数据,科学家开发了各种计算工具,例如chromVAR,Cicero,cisTopic,APEC等。
ChIP-seq和ATAC-seq相结合
比较两个或多个样品时,仅ChIP-seq可能难以寻找有意义的调控元素。在这方面,ATAC-seq具有高分辨率和高信噪比的优势,这使研究人员能够识别差异调节序列,例如增强子。将ChIP-seq与ATAC-seq结合使用,可以更轻松地确定明显的峰。尽管检测DNase-seq和ATAC-seq等开放染色质的方法可以帮助推断基因组特征,但ChIP-seq方法仍不可替代。所有这些技术都是间接检测转录因子与DNA的结合位点的,这意味着从富集的基序推断出的转录因子作用位点仍然需要进一步验证。单独使用ATAC-seq的可能限制是:
1.并非所有的染色质调节剂都具有相应的基序,例如染色质重塑蛋白的调节剂并不具有特异的DNA序列。相反,染色质重塑蛋白和核小体之间的相互作用通常是早期胚胎发育以及细胞命运决定的重要因素。单独的开放染色质信息不能用来推断这些因子的结合情况。
2.一些基序有可能被多个序列特异性转录因子结合。
3.一些同源转录因子以相似的基序模式结合,在许多情况下,开放染色质直接分配给特定的单个转录因子的可能性较低。直接检测特定转录因子和DNA之间相互作用的结果通常更可靠。
与直接确定特定DNA-蛋白质相互作用的ChIP-seq相比,使用ATAC-seq检测到的全基因组染色质开放性代表了另一水平的染色质调控格局。因此,将ATAC-seq和ChIP-seq结合使用将有助于科学家对染色质调节动力学及其生物学意义更全面和深入的了解。
图3 ATAC-seq及其分析工具的开发
图4单细胞ATAC-seq:a.SCI-ATAC-seq的组合标引方法。第一个序列是由Tn5转座酶引入,第二个索引通过使用包含第二个序列的引物扩增而引入。b.基于集成射流电路(IFC)的scATAC-seq。在使用微流体平台(Fluidigm)的scATAC-seq中,在IFC上转座和PCR后,收集文库,并用细胞识别序列引物进行PCR扩增。然后,将单细胞文库汇集在一起,并在高通量测序仪器上进行测序。c.基于液滴的scATAC-seq(10×ATAC-seq)工作流程在Chromium平台(10倍基因组学)上实现。GEM:乳剂中的凝胶珠。
应用程序重置对生物学问题的理解
ChIP-seq和ATAC-seq方法完善了我们对早期胚胎染色质重塑的理解
哺乳动物胚胎发育涉及全基因组的表观遗传变化,包括DNA甲基化,组蛋白修饰,开放染色质和染色质构象。至关重要的是,许多基因组调控元件(如启动子,增强子,绝缘子和基因座控制区)通过与细胞类型特异性转录因子的相互作用来指导胚胎发育。同样,这些调节元件之间的长期相互作用也很有趣(图5a)。通过创新性地优化ChIP,它可以用于非常低的细胞数量(例如胚胎)中的组蛋白修饰重建研究(图5b)。在早期的小鼠胚胎中,H3K4me3经历了广泛的重编程事件,在合子中消失并在后代中再次重建,并伴有合子基因组激活(ZGA)。因此,优化ChIP-seq在胚胎中的应用可能有助于揭示哺乳动物组蛋白修饰从父母传给后代的详细过程,即受精前后父母修饰方式的差异。更重要的是,改进的ATAC-seq方法在胚胎组织中的应用有助于在胚胎发育的关键时期进行全基因组染色质开放性的定位。例如,在植入前的胚胎中,ATAC-seq用于揭示ZGA中高分辨率染色质变化和次要合子基因组激活(minorZGA)的时间动态。附加的表观基因组研究也显示了胚胎发育不同阶段的独特染色质状态。这些发现为将来进一步研究人类胚胎发育和临床指导提供了有价值的线索。诸如调节染色质状态转变的关键因素和转座子等更多问题仍有待发现。
利用单细胞探究器官的发育过程
表观基因组测序技术在实验系统中追踪发展轨迹并探索细胞命运决定机制起着不可替代的作用(图5c)。单细胞水平的ChIP-seq和ATAC-seq有助于全面解决组织和器官的发育动力学。在2018年,scATAC-seq被应用于小鼠前脑发育不同阶段的簇细胞,并用于识别从开放染色质推断出的关键调控因子。类器官模型中的ChIP-seq,ATAC-seq和DNase-seq与转录组数据相结合,将有助于揭示特定细胞的发育动态,发现关键的转录调节因子,并确定易患疾病的细胞群。单细胞转录组和ATAC-seq在器官发育中的多组学整合可以为疾病的临床治疗提供坚实的基础。例如,通过全面了解人类海马发育的关键时间点和基因调控网络,研究人员提供了与帕金森氏病,阿尔茨海默氏病和亨廷顿氏病的病理学有关的潜在细胞群的信息。
除神经生物学研究外,染色质动力学分析还揭示了肌肉发育,乳腺发育和心脏前体细胞命运。对单细胞染色质动力学的细粒度研究将有助于在将来创建人体器官发育的全球模型,使我们能够追踪每个组织和器官的胚胎起源。
表2 CHIP-seq与ATAC-seq的比较
图5单细胞表观基因组学的未来应用。a.监管因素的长期相互作用。b.稀有细胞类型(如早期胚胎)中的染色质动力学。c.细胞谱系追踪。d.细胞间异质性的反卷积
利用单细胞评估癌症的复杂性
当前对高度异质性肿瘤组织的理解有限,包括肿瘤微环境的差异,原始原发癌和转移瘤之间的差异以及肿瘤亚克隆的进化。肿瘤微环境中的免疫细胞通常对于癌细胞的免疫逃逸和浸润过程至关重要。scATAC-seq及其扩展的应用将有助于揭示表观遗传学在肿瘤发展中的异质性,并为治疗提供潜在的靶点(图5d)。例如,scATAC-seq的应用已确定了肿瘤微环境中恶性基质和免疫细胞的调控网络。通过检测单个细胞水平上免疫细胞发育的动力学,比较了患者在免疫治疗前后肿瘤微环境中的肿瘤内T细胞衰竭。可以识别出对免疫疗法有反应的关键调节性T细胞群体。对同一细胞中ChIP-seq,ATAC-seq和DNA突变图谱的综合分析将使科学家能够发现癌细胞的新亚克隆,从而进行个性化的临床试验。因此,了解单细胞水平上的染色质调控格局将显著加快癌症治疗的生物医学进展。
ATAC-seq的扩展技术还可以提供有关肿瘤异质性的新见解。具有可视化功能的转座酶开放染色质测定(ATAC-see)通过荧光标记开放基因座,有助于在原位成像开放的染色质。例如,通过使用ATAC-see和荧光原位杂交,科学家提供了染色体外DNA(ecDNA)和ATAC-see荧光信号共定位的物理证据。由ATAC-seq和MNase-seq数据证实,该结果表明ecDNA高度可访问,这可以解释为什么ecDNA上的致癌基因可以大量表达。因此,ChIP-seq和ATAC-seq技术的适应可以为靶向治疗提供新的方向,并为癌症的异质性提供影像学的物理证据,从而使科学发现更加全面和可靠。
结论和未来展望
scRNA-seq和scATAC-seq的组合
为了构建完整的调控网络,通常需要将RNA-seq,ATAC-seq和ChIP-seq结合在一起。尽管已经开发了许多算法来集成多组学数据,但是很难评估这些算法的性能以及它们是否完全保留了生物学差异。近年来,越来越多的研究证明了对同一细胞中多种形态进行平行分析的潜力。基于微滴平台的单核染色质开放性和mRNA表达测序(SNARE-seq)可通过双组学捕获同时对单个细胞中的转录组和染色质开放性进行测序,并可适当地关联两种方法的结果以获取有关基因表达的调节。 sci-CAR是一种基于组合索引的方法,可以结合sci-ATAC-seq和sci-RNA-seq在数千个单细胞中共同测定染色质的开放性和mRNA(CAR)。 Pairedseq是一种超高通量方法,用于并行分析数百万个单个细胞中的转录组和可利用的染色质。在这种方法中,采用基于连接的组合索引策略,以同时标记Tn5转座酶产生的开放染色质片段和数百万个细胞中RNA逆转录产生的cDNA分子。与SNARE-seq和sci-CAR相比,Pair-seq具有更高的吞吐量,这使得在生物尺度上分析基因调控程序成为可能。与转录组相比,开放染色质的一个显著优点是,开放性提供了基因的表达状态和调控元件之间的相互作用网络,因此,通过将ATAC-seq与RNA-seq结合起来,将解决更引人注目的生物学问题。例如,时空基因表达模式与顺式调控元件高度相关,因此在单个细胞之间存在差异。基于这一前提,这些异质细胞如何协同工作以构建一个全面的细胞通讯网络是耐人寻味的。
在单细胞中探测染色质的前景和局限性
与来自细胞群体的开放染色质数据相比,scATCA-seq信号是二进制和稀疏的,因此需要一种新的分析框架来解释与大量数据的根本差异。一种可行的方法是收集许多单个细胞的信息,以确定细胞间染色质变异的决定因素。由于每个片段的末端代表开放染色质的区域,因此可以分析来自这些片段的组合信号来确定基因组中富含开放染色质的区域,从而推测具有调节和功能的意义。然而,从理论上讲,这种方法的一个缺点是无法识别仅出现在稀缺人口中的罕见峰值。目前的scATAC-seq方法的一个主要限制是它们只捕获单个细胞中开放染色质位点的一个子集,在实验和计算过程中可能丢失或检测不到许多位点。在不久的将来,似乎不太可能实现更全面的覆盖。更高的每个小区覆盖率将会解决新的问题。例如,单个细胞中两个等位基因之间的染色质可及性如何不同,或者单个细胞中开放的染色质区域是如何相互关联的,这仍然令人困惑。
空间表观基因组的前景
Tn5转座酶被广泛用于染色质可及性测序、转座子插入线性扩增,甚至检测与冠状病毒共感染的潜在病原体。为了个性化的应用,Tn5能够对各种适配器进行退火,这是提出创新研究设计的一个重要方面,例如将适配器与荧光相结合以便于进行染色质成像。此外,由于未公开的试剂严重限制了新应用的发展,对Tn5的修改设计将进一步实现高通量和大规模的实验。如果科学家能够有效地个性化文库的准备过程,这将使表观基因组测序技术受益于更多的大型项目,如DNA元素百科全书(ENCODE)。例如,利用空间转录组的原理,一旦Tn5大量可用,就有可能直接对样本进行测序,而不需要细胞解离和离心步骤,从而保持细胞的原始状态,并显著减少损失。此外,空间表观基因组可以通过将单个细胞的染色质状态映射到它们的位置信息来实现。虽然许多研究已经获得了组织和器官发育的良好的时间节点,但进一步提高发育研究的空间分辨率仍然是一个挑战,例如胚胎器官中不同阶段的细胞迁移轨迹。
不仅需要细胞在空间上的定位和迁移,分子水平上的空间动力学也是至关重要的。细胞内全基因组染色质构象变化是调节细胞行为的重要机制。HiChIP技术将芯片技术与染色质构象捕获技术相结合,成功地解决了染色质结构的高灵敏度、高分辨率的动力学问题。因此,随着表观基因组动力学分析技术的进一步发展和完善,将不同的组学和实验技术结合起来进行多维生命科学研究具有广阔的前景和诱人的前景。一张更全面的网络还可以更好地理解单个细胞内多种调控因素的相互作用。
文献原文:Ma, S., Zhang, Y. Profiling chromatin regulatory landscape: insights into the development of ChIP-seq and ATAC-seq. Mol Biomed 1, 9 (2020).