DNA甲基化是染色质表观遗传修饰的一种重要形式。DNA甲基化能够影响多种基因表达过程,并且可受到复杂的调控来指导复杂的生物学过程,如胚胎发生、衰老和肿瘤发生等。在人类基因组中,90%以上的CpG位点是被甲基化的,CpG甲基化有助于哺乳动物基因组的稳定性和转录调控。
除启动子外,远端调控元件的DNA甲基化模式与细胞身份和染色质结构有关,特别是在增强子和CTCF结合位点区域。因此,全面分析DNA甲基化是了解细胞状态动力学的必要条件之一。目前,DNA甲基化测序的基本原理先通过亚硫酸氢盐处理序列片段,然后将未甲基化的胞嘧啶残基(C)转化为尿嘧啶(U),但5-甲基胞嘧啶残基(5mC)对其有抗性,并不会发生转变。传统的全基因组甲基化测序是涵盖整个基因组,费用高,效率低。与之相反,简化甲基化测序(Reduced representation bisulfite sequencing, RRBS)主要针对CpG富集区域的甲基化进行测序,利用限制性内切酶酶切手段将DNA切成小片段,然后选取特定片段大小的序列进行重亚硫酸盐测序分析,评估CpG甲基化水平,从而以较低的测序成本实现一小部分基因组的高覆盖率。然而,RRBS缺乏CpG岛以外的增强子区和CTCF结合位点的覆盖。近日,来自Broad研究所等单位的研究团队在Nature Biotechnology在线发表了题为“Extended-representation bisulfite sequencing of gene regulatory elements in multiplexed samples and single cells”的文章,报道了一种低细胞量的靶向DNA甲基化测序分析方法(extended-representation bisulfite sequencing, XRBS)。该方法能够富集涵盖包括启动子、增强子和其它调控元件区域的CpG甲基化信息。此外,DNA条形码片段的加入也使得在低样本量的前提下进行多重处理。文章发表在Nature Biotechnology传统的靶向甲基化测序可以捕获预先定义的区域,具有高重现性,但需要相对大量样本输入,这在一定程度上限制了那些珍贵样本或细胞量稀少的相关研究。XRBS克服了上述困难,同时涵盖了启动子、增强子和CTCF位点DNA甲基化的分析。具体步骤包括:首先,研究人员对甲基化不敏感酶MspI进行了优化,并在基因组片段的连接序列上添加了样品识别条形码。随后捕获对应的DNA片段,并在亚硫酸氢盐转化前的生物素富集步骤中去除多余的序列。第三步,使用一个随机的六聚体扩展步骤合成第二个序列,该方法将扩大基因组序列的覆盖范围,分离出MspI位点,并恢复亚硫酸氢盐转化过程中产生的降解片段。此外,六聚体序列通常是不完全匹配的,因此可以作为唯一的分子标识符(UMI)识别来自不同文库PCR 的重复序列;最后即可获得文库并进行测序。图1. XRBS基本步骤,图片来源:Nature Biotechnology利用该方法,研究人员从K562细胞10ng的纯化基因组DNA中生成了文库,并获得了约4000万双端reads的测序数据量,确定了不同实验批次间具有较高的一致性(皮尔森相关系数= 0.96-0.97)。将XRBS方法与全基因组甲基化测序(WGBS)和RRBS进行比较,结果显示,XRBS测序reads分布在不同的MspI酶切位点的上游和下游的不同位置,其覆盖率显著扩大,并且每个CpG的DNA甲基化值在XRBS、WGBS、RRBS和EPIC甲基化数据集中有很好的相关性。图2. XRBS来源数据与现有技术获得数据的比较,图片来源:Nature Biotechnology为了评估该方法对功能相关基因组区域的覆盖率,研究人员系统比较了CpG、基因启动子、增强子和CTCF结合位点等区域的覆盖率和富集情况。分析结果显示,XRBS捕获了83.5%的CpG区域,RRBS为72.0%,如果用WGBS对CpG区域进行类似的覆盖程度需要5.3倍的测序深度。在启动子区域,在不考虑CpG密度的前提下,XRBS、RRBS和WGBS的捕获率分别为81.7%、67.7%和40.3%。在增强子和CTCF结合位点的覆盖层面,当测序深度达到饱和时,XRBS包含了38,211个H3K27ac峰值,CTCF结合位点18,059个,RRBS对应的数值为15,239个和5,170个。以上结果表明,XRBS捕获了更广泛的调控元件,且具有更高的效率和更低的测序深度要求。图3. 不同技术测序深度和覆盖范围的比较,图片来源:Nature Biotechnology此外,研究团队还使用XRBS比较了不同生物样本的甲基化模式。纳入的细胞类型包括K562细胞系和Kasumi-1、OCI-AML3和HL-60三个白血病细胞系。使用低覆盖率测序数据,研究发现K562细胞整体甲基化水平较低(beta值平均为0.28);Kasumi-1细胞整体高甲基化状态(beta值平均为0.72);OCI-AML3和HL-60处于中间化甲基化水平。为了验证在K562细胞中观察到的广泛的低甲基化现象,研究人员还分析了公共数据库中的ChIP-seq和Hi-C的测序数据,均证实了XRBS的测序准确性。图4. XRBS检测不同细胞类型的甲基化水平,图片来源:Nature BiotechnologyXRBS覆盖率的增加为研究不同细胞类型的启动子、增强子和CTCF结合位点的甲基化差异提供了可能。为此,研究人员对上述四种细胞系的1,000个细胞库进行了深度测序。分析结果表明,在单个细胞系中特异性高甲基化的1,473个启动子中,大部分在Kasumi-1中能够检测到,与其整体高DNA甲基化水平一致。相应地,在单个细胞系中鉴定出的2,499个特异性低甲基化的启动子中,绝大多数在K562细胞系中检测到。此外,研究发现XRBS还是一种推断增强子活性及CTCF结合位点相关研究的有效方法。图5. XRBS可预测功能元件的状态,图片来源:Nature Biotechnology此外,XRBS的另一突出优势是可以实现多路复用,前期条形码和混合亚硫酸氢盐转换的步骤可以使其很好地适用于单细胞分析。研究显示,利用XRBS对单细胞文库进行高深度测序后,共获得高达187万个独特的reads和343万个CpG。同时,两个物种基因组的比对和不同细胞系的比较均证实XRBS方法中条形码交叉污染极为罕见,保证了后续数据分析的准确性。
图6. XRBS可应用于单细胞,图片来源:Nature Biotechnology
综上所述,该研究报道了一种新型靶向DNA甲基化测序分析方法—XRBS,通过引入条形码这一步骤,实现了高灵敏度和样本复用,使其具有高度可扩展性,并适用于有限的样本甚至单个细胞。同时,文章通过多方面数据分析证明了XRBS能够富集启动子、CpG岛、CTCF结合位点和增强子区域的CpG甲基化,在效率、覆盖范围和灵敏度方面比现有方法具有明显的优势。除此之外,XRBS在单细胞维度的使用也将DNA甲基化与细胞异质性联系起来,具有广阔的应用空间。
1. Shareef, S.J., Bevill, S.M., Raman, A.T. et al. Extended-representation bisulfite sequencing of gene regulatory elements in multiplexed samples and single cells. Nat Biotechnol (2021).2. Luo, C., Hajkova, P. & Ecker, J. R. Dynamic DNA methylation: in the right place at the right time. Science 361, 1336–1340 (2018).3. Greenberg, M. V. C. & Bourc’his, D. The diverse roles of DNA methylation in mammalian development and disease. Nat. Rev. Mol. Cell Biol. 20, 590–607 (2019).
· END ·