组蛋白修饰迈入单细胞测序时代 | 单细胞专题

——单细胞里程碑式的突破:加州大学圣迭戈分校任兵课题组在单细胞层面同时测定转录组和DNA表观遗传修饰水平的新方法突破!

历史的车轮浩浩荡荡向前,永不停息。回首生物学界的这20年,不管是理论还是技术手段都发生了翻天覆地的惊变。21世纪初,科学界通过一代测序仪ABI3700花了三年时间第一次解析了人类基因组;随后,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生,为后期从高通量的角度研究转录组水平和染色质表观遗传修饰水平打下了坚实的基础;时间来到了09年,汤富酬教授第一篇划时代的研究发表在Nature Medicine上,将单细胞技术带到了世人眼前;2018年,单细胞测序被Science评为年度十大科学突破。

单细胞技术被多个课题组通过测定转录组信息来探究组织的异质性问题、细胞发育问题和组织内新细胞群体的发现。

商业化单细胞平台诸如10X genomics、BD等,目前已经累计了超过2000篇的高分文章。但纵观研究成果,很少有人通过探究DNA染色质的表观遗传修饰来解决生理或者机制问题。

目前绝大部分单细胞测序研究论文中,采用的单细胞平台分为微流控(drop-seq)和微孔板(seqwell)两个大的方向。方法也主要集中在3’转录组、5’免疫组、ATAC、CITE-seq(蛋白+mRNA水平同时检测)等。空间转录组商业化平台包括10X的Visium、ReadCoor(已被10X收购)、Nanostring的GeoMX DSP等。

此外,在学术层面已发表的单细胞方法学文章中,DNA甲基化以及微生物单细胞测序(连2021国自然基金委都在推荐的微生物单细胞测序不了解下?| 微生物专题)等也在预印本BioRvix中崭露头角,但是组蛋白修饰仍然没有高水平的研究发表。

究其原因,主要还是目前现有的单细胞技术手段还是存在一些技术瓶颈,暂时不能有效地披露特定蛋白(组蛋白或转录因子)与染色质的结合信息以及其他的表观遗传修饰行为。

10x genomics公司开发的single-cell ATAC-seq是较为成功的商业化单细胞DNA表观遗传学修饰研究平台。随后又将该产品升级到同一细胞同时分析ATAC+mRNA,并命名为Chromium Single Cell Multiome ATAC + Gene Expression.这款产品原理是基于UCSD张鹍教授的SNARE-seq以及其他高校所发布的ATAC+mRNA单细胞测序技术上进行改良的。

基于单细胞ATAC+mRNA技术,研究人员可以了解单细胞状态下细胞内染色质开放的位置的同时获得了mRNA表达信息,并通过现有的数据库预测该位置可能被哪个潜在的转录因子或者组蛋白结合。但如果想要通过实验手段测定单细胞状态下染色质的表观遗传学修饰,还是任重道远。

理论上讲,基于mRNA水平对细胞进行亚型鉴定存在一些问题,如蛋白表达相对于mRNA出现靠后,基因即将表达的染色体开放程度相对于mRNA水平往前靠等不同步情况。组蛋白修饰将会对现有细胞鉴定带来新的补充,但是技术瓶颈一直限制着科学家在方法学的进一步突破

不过科学界从来不缺平地起惊雷的高光时刻。表观遗传学高产科学家,来自UCSD的任兵教授在哈佛获得了生物与计算机双学位后,通过短暂的博后训练,于2001年后正式加入UCSD及Ludwig癌症研究所。任兵教授随后参与了ENCODE计划,并在转录后调控、超级增强子、DNA-蛋白互作、顺式调控元件、3D基因组结构解释等多个领域发表了诸多高水平的研究论文,并开发了一系列高通量测序的方法学论文及生信分析软件。

2013年,任兵课题组利用Hi-C分析技术获得了人体细胞染色质相互作用组的高分辨率基因组图谱。2016年通过在联川生物定制了CRISPR/cas9的gRNA文库,用于寻找超级增强子及顺式调控元件(做CRISPR,有这个工具会让你事半功倍!| 前沿)等大发现后,在2021年2月15日,又再次利用CUT&TAG技术在单细胞平台上成功地测定了单细胞状态下细胞内的转录组信息和表冠遗传修饰信息,开辟了单细胞技术又一个新的应用场景(1)。那么这个技术是如何实现的呢?在讲这个之前,让我们把时间线拉回到2019年,先讲讲CUT&TAG技术是什么。

CUT&TAG介绍

2019年4月份,Nature Communication刊登生物界大牛Steven Henikoff研发的用于替代ChIP-Seq的新技术-CUT &TAG(Cleavage Under Targets and Tagmentation)(2)

ChIP-Seq可以说是目前最常见的研究体内蛋白质与DNA相互作用的有力工具,但由于ChIP-seq需要利用甲醛进行蛋白与DNA的交联,且需要超声打断,因此这些步骤中极易损失很多的生物学信息,进而需要较多的细胞量和组织量,因此对很多珍贵样本来说,ChIP-seq是非常不友好的实验技术。

CUT&TAG能通过Protein A-Tn5复合物,在抗体的引导下靶向切割目的蛋白附近的DNA序列,免去了交联和超声等复杂的实验步骤并能有效的规避ChIP-seq所引起的抗原决定簇遮盖和样本损失问题,提高了信噪比,大大的提高了实验成功率。大致方法如下(附图):

  • 1.首先利用Triton-X100或者digitonion等物质增加细胞膜的表面通透性,使得抗体和Protein A-Tn5复合物能够顺利的进入到细胞内;

  • 2.用一抗孵育,锚定目标蛋白;

  • 3.用一抗对应的二抗孵育,与一抗结合,放大信号;

  • 4.用protein A-Tn5复合物孵育,与二抗结合。

注:Protein A是金黄色葡萄球菌的细胞壁蛋白,Protein A上有多个IgG(二抗)的结合位点。借助此原理,protein A可以与二抗结合。Tn5能对DNA进行切割,并在切割片段左右加上特异性DNA片段。作者设计了Protein A-Tn5复合物,使得该复合物可以与二抗结合并切割抗体附近的DNA片段。

  • 5.Tn5转座酶特异性切割和抗体结合的目的蛋白附近的DNA。

  • 6.测序建库,上机。

在CUT &TAG中,由于Tn5转座酶切割具有高效和特异性,并且切割下来的片段基本上都是与蛋白进行结合的DNA,避免了ChIP-seq中常有的假阳性片段,因此得到的数据具有背景噪音较少、可靠性较高的特点,是ChIP-seq的完美替代品。此外,Tn5酶在切割时,会对切割片段的左右两端加上特定的接头。因此,Tn5酶切产物可以直接用于PCR扩增建库,和常规的ChIP-seq测序相比可以节省不少时间。

Paired-Tag介绍

时间来到了2021年,任兵教授团队利用CUT&TAG的技术特点并结合单细胞手段,研发出了Paired-Tag技术(parallel analysis of individual cells for RNA expression and DNA from targeted tagmentation by sequencing),使得在单细胞层面同时测定DNA表观遗传修饰信息和转录组变化成为了可能。具体方法如下(附图):

  • 1.提核后,加入一抗和二抗后孵育,使得目标蛋白(组蛋白)与一抗和二抗特异性结合;

  • 2.加入protein A-Tn5复合物,对与目的蛋白特异性结合的DNA片段进行切割;

  • 3.对细胞核内的RNA进行反转录,反转录成cDNA;

  • 4.利用a ligation-based combinatorial barcoding strategy进行单细胞标记;

  • 5.通过多步扩增的技术分离cDNA文库和基因组DNA文库;

  • 6.上机测序。

可以确定的是,这个技术的面世,我们可以获得同一个细胞内的转录组信息和表观遗传学修饰水平的变化,可以更为全面的、更为精准的分析组织内的调控网络,对未来更为细致地研究细胞内的转录调控机制有极大的帮助:一方面,正如作者在讨论中所说的,同时测定转录组和组蛋白表观遗传信息可以更好的解释细胞内为应对生理活动转录元件的变化情况,为组织中不同细胞类型的调控方式提供更好的机制性解释;另一方面,单一组学对细胞的定义可能会掺杂一定程度的主观因素,而从多个组学的角度左右辅证去定义细胞,可以尽可能的提高细胞定义的准确性,并减少主观因素的干扰。

此外,作者在本次实验中采取的单细胞标记法为Ligation-based combinatorial barcoding(附图)(3)。大致方法如下:

  • 1.将一定数量的细胞核(文中为2000-5000个)均匀地分成96等份,并加入到96孔板中;

  • 2.在96孔板的每个单孔中放入不同的barcode,并在T4连接酶的催化下进行barcode片段和DNA片段连接;

  • 3.收集96孔板中的细胞核并洗脱混合;

  • 4.重复1-3步骤2遍。

在最理想的情况下,上述方法最多可标记884736个细胞(96x96x96)。

感悟

但这个明星技术目前是不是非常完美了呢?答案是否定的。首先,在barcode标记的三次均匀分配至96孔的过程中,难免会有几个细胞每次都落在相同的barcode孔中,造成在数据分析中这些细胞难以区分。而在本次实验中,作者自己得出的结论是重复标记细胞的占比可达8.2%,因此有相当大的一部分数据会浪费。那如何有效的提高数据的利用率呢?采用商业化平台(ICELL8或者10x genomics平台)来对细胞和进行单细胞标记或许是一个很好的选择(附图)(4)

但令人失望的是,有文章报道通过10x genomics平台对CUT&TAG技术进行适配后测定的数据会出现有效reads数偏低的情况:H3K36me3结合的reads片段数中位值仅为98个,H3K27ac为453个,而这两个蛋白的片段在作者的实验中可达1000甚至5000个以上。也就是说,可能存在现有的抗体与目标蛋白的靶向结合效率或者抗体与protein A-Tn5复合物结合率偏低,或者Tn5酶的切割效率不高的问题。关于这一点,作者也在文章中道出了他猜测的可能原因,他表示这种情况极有可能是因为这个技术尚处于开发阶段,还没有较为成熟的专门用于CUT&TAG的试剂盒面世。

此外,还有一点需要注意的是,该文章研究的是组蛋白的DNA修饰信息以及转录组信息。但很多情况下,生理活动的调控还可能是由于转录因子入核后与目标基因的启动子结合来进行调控的。那么相较于组蛋白,核转录因子的表达水平和与染色质结合几率更低,在现有的实验技术上,对这些信息进行放大并定量又是一个颇大的挑战,为了让这个技术从不可能到可能,开发一系列具有高保证的,具有较低碱基偏好性的线性扩增酶必然是重中之重。

结语

无论如何,新技术的出现永远带有争议,并带有不足。但重要的是,这篇文章成功地实现了从0到1的突破,指出了实验的可行性。曙光已乍现,并且单细胞技术作为挖掘生物现象的有力工具,必然会有越来越多的有志之士加入到这项技术的开发中,来完善它。我们可以确信,在不久的未来,更为成熟的策略方案将会出现在世人眼前,并作为一种研究单细胞层面基因表达调控机制的常见方法被应用到更多的疾病发生机理的探究中。

任兵,任兵教授早年毕业于中国科技大学,在哈佛大学取得博士学位后在怀特黑德生物医学研究所进行博士后训练。现任加州大学圣地亚哥分校Ludwig癌症研究所基因调控实验室主任,主要从事哺乳动物细胞基因调控网络分析及细胞表观遗传学调控机制的研究。先后获得Helen Hay Whitney基金会博士后奖学金、Kimmel 学者奖及华人生物学家协会青年研究者奖,并开发了多项生物学技术,比如利用Hi-C分析技术获得了人体细胞染色质相互作用组的高分辨率基因组图谱和通过CRISPR/CAS9寻找增强子。
参考文献

(1)Zhu, C., Zhang, Y., Li, Y.E. et al. Joint profiling of histone modifications and transcriptome in single cells from mouse brain. Nat Methods (2021). https://doi.org/10.1038/s41592-021-01060-3

(2)Kaya-Okur, H.S., Wu, S.J., Codomo, C.A. et al. CUT&Tag for efficient epigenomic profiling of small samples and single cells. Nat Commun 10, 1930 (2019). https://doi.org/10.1038/s41467-019-09982-5

(3)Rosenberg AB, Roco CM, Muscat RA, Kuchina A, Sample P, Yao Z, Graybuck LT, Peeler DJ, Mukherjee S, Chen W, Pun SH, Sellers DL, Tasic B, Seelig G. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science. (2018) https://doi.org/10.1126/science.aam8999

(4)Steven J. Wu, Scott N. Furlan, Anca B. Mihalas, Hatice S. Kaya-Okur, Abdullah H.Feroze, Samuel N. Emerson, Ye Zheng, Kalee Carson, Patrick J. Cimino, C. DirkKeene, Jay.F. Sarthy, Raphael Gottardo, Kami Ahmad, Steven Henikoff, Anoop, P. Patel bioRxiv (2020) https://doi.org/10.1101/2020.09.04.282418

(0)

相关推荐