综述科普:单细胞测序技术下的小鼠脑部DNA甲基化图谱
表观基因组的动态变化与哺乳动物大脑中的细胞分化和成熟有关,在调节神经元功能和动物行为方面具有重要作用。胞嘧啶DNA甲基化(5mC)是一种稳定的共价修饰,对基因调控至关重要。在哺乳动物基因组中,5mC主要发生在CpG位点(mCG),在具有组织和细胞类型特异性的调控元件上表现出动态模式,调节转录因子的结合亲和力,控制基因转录。非CpG胞嘧啶在小鼠和人脑中也有丰富的甲基化(mCH,H代表A、C或T),这可以直接影响甲基CpG结合蛋白2(MeCP2)的DNA结合进而导致Rett综合征。基因上的mCH水平与基因表达呈负相关,并且在不同神经细胞类型中表现出高度的异质性。
对小鼠大脑表观基因组多样性进行深入研究为基于转录组识别脑细胞类型提供了一种补充方法,并可以在全基因组范围内预测这种多样性背后的转录调控元件和网络。已有研究已经证明了使用单核甲基化组测序(single-nucleus methylome sequencing,snmC-seq)研究脑细胞类型和调控多样性的实用性。这项研究使用snmC-seq2对出生后56天(P56)的成年雄性小鼠的大脑进行了彻底的甲基化分析和详细的空间解剖。在文章中,使用单核转座酶染色质性测序(single-nucleus assay for transposase-accessible chromatin using sequencing,snATAC-seq)来鉴定全基因组可及染色质,通过对相同的组织样本进行分析,提供互补的表观基因组信息来帮助细胞类型特定的调控基因组注释。此外,为了进一步研究基因组中的顺式调控元件及其潜在的靶基因,作者应用单核甲基化和染色体构象捕获测序技术(single-nucleus methylation and chromosome conformation capture sequencing,sn-m3C-seq)对同一细胞中的甲基组和染色质构象进行了分析。
这些表观基因组数据对小鼠脑区细胞类型多样性提供了详细且全面的信息,从而能够识别特定细胞类型的调控元件及其候选靶基因和上游转录因子。作者构建了一个单细胞单碱基分辨率的DNA甲基化数据集,包含来自45个大脑解剖区域的103,982个甲基化组,并使用迭代分析方法预测识别了161个小鼠脑亚型。通过比较亚型间的DNA甲基化水平,识别出390万个显示细胞类型特异性mCG变异的基因组区域,覆盖了大约50%(1240Mb)的小鼠基因组。
单细胞DNA甲基化图谱
作者确定了68个兴奋性亚型和77个抑制性亚型(图2a、b)。虽然亚型和脑区域之间没有一一对应的关系,但个别亚型表现出了不同区域的富集(图2a、b)和不同的整体mCH水平,从0.98%(DG dg-all)到4.64%(PAL-Inh Chat)(图2a、b,右下)。具体地说,等皮质兴奋性亚型通常由主要来源于感觉运动(初级运动MOp、次级运动MOs、初级躯体感觉SSs和次级躯体感觉SSs皮层)、内侧(PFC和ACA)或额区的细胞组成。在OLF中,来自AON和MOB的兴奋细胞在OLF-Exc Bmpr1b亚型中富集,而来自PIR的兴奋细胞在其他OLF-Exc亚型中相对富集。同样,CNU和OLF中的一些抑制亚型也对应于这两个区域的不同亚型,这表明CNU和OLF中间神经元之间存在着相当大的空间相关甲基化多样性。
整合表观基因组图谱
整合通过不同测序方式收集到的单细胞数据有助于帮助人们建立出一个具有很强一致性的细胞类型图谱。通过将甲基组测序数据与使用snATAC-seq在一项平行研究的相同大脑样本上分析的染色质可及性数据进行整合,这两种模式在亚型水平上相互验证(图2c,d)。然后,作者计算了原始甲基化亚型(m-type)和染色质可及性亚型(a-type)之间的重叠数,这进一步量化了两种模式之间的亚型匹配程度(图2e)。此外,mCG DMR与海马体亚型中的开放染色质区域高度重叠(图2f)。它们的mCG组分和染色质可及性水平在不同的海马体亚型中显示出相似的细胞类型特异性,证实了细胞类型的正确匹配。
ET-L5神经元的预测特异性
为了进一步推断细胞亚型的预测靶点,作者将ET-L5神经元与表观组数据进行了整合。epi-retro-seq使用病毒标记来选择预测到特定大脑区域的神经元,然后对其表观遗传亚型进行甲基组分析。在t-SNE分析中,来自两个数据集相同大脑区域的细胞聚在一起,验证了亚型的空间分布(图2g-i)。无偏(snmC-seq2)和靶向(epi-retro-seq)实验间的重叠分数表明,从同一皮质区域识别的一些亚型显示出不同的预测特异性。例如,SSp和MOp神经元主要集中在Kcnh1、Tmtc2和Nectin1标记的三种亚型中。然而,在MOp和SSp中预测到髓质的神经元只与Kcnh1标记的亚型整合(图2j),这表明在无偏的甲基组图谱中发现的亚型具有明显的预测特异性。
神经元亚型的调节性分类
在根据DNA甲基组数据绘制了细胞类型的图谱后,作者确定了16,451个差异CH-甲基化基因(CH-DMG)和390万个CG-差异甲基化区域(CG-DMR)。具体而言,mCH和mCG均与神经元的基因表达呈负相关,且mCH的相关性强于mCG。CG-DMR提供了对特定细胞类型的调控元件和转录因子的预测,这些转录因子在CG-DMR存在丰富,是预测细胞类型的关键调控因子。
为了进一步探索神经元亚型之间的基因调控关系,作者基于CH-DMG的mCH构建了兴奋性和抑制性亚型的分类树。树状图结构代表了这些离散亚型间的相似之处,并可能反映不同类型神经元间的进化历史。作者计算了每个基因或转录因子motif的分支特异性甲基化影响系数(impact score),影响系数在0到1之间,得分越高,预示着与该分支的功能相关性越强。作者将 6,038 个基因分配给兴奋性的分支中,其中 406 个转录因子影响系数大于 0.3。在影响系数分配之后,分类中的每个分支都与多个转录因子基因和motif相关联,这些基因和motif有可能组合在一起对细胞类型进行识别(图3e,f)。
增强子-基因相互作用
为了系统地识别特定细胞类型中的增强子区域,作者整合了161个亚型相应的DNA甲基组和染色质可及性图谱来预测增强子DMR(eDMR)(图4a)。作者鉴定了1,612,198个eDMR(占CG-DMR的34%),其中73%与单独鉴定的snATAC-seq区域重叠(图4b)。
接下来,作者研究了细胞类型marker基因和它们潜在的调控元件之间的关系。作者使用145个神经元亚型的甲基化水平计算了1Mb距离内所有DMG-DMR之间的相关系数,共鉴定出1,038,853(64%)个eDMR与至少一个基因相关(相关性>0.30,P<0.005)。值得注意的是,对于那些强正相关的DMR-DMG(相关性>0.5),大部分(63%)DMR在相应基因的转录起始点(TSS)的100kb内(图4c),而对于负相关的DMR-DMG,只有11%的DMR在TSS的100kb内。
IT神经元和DG颗粒细胞的mC梯度
皮层兴奋性IT神经元可以分为:L2/3、L4、L5和L6(图5a)。与转录水平和DNA甲基化之间的负相关一致,作者在IT神经元中发现了marker基因的低甲基化。此外,UMAP包埋(图5a)显示了IT神经元的连续梯度(图5b),为了系统地研究DNA甲基化的空间梯度,作者根据细胞的皮质层和区域将细胞整合并进行分类。不同类型的转录因子包括许多已知的marker基因及其DNA结合基序,而一些还显示出区域特异性甲基化差异。例如,编码L2/3和L4神经元特异性转录因子的Cux1在运动(MO)和躯体感觉(SS)皮质中处于低甲基化状态,但在其他区域的L2/3区域处于高甲基化状态,而编码另一个同源转录因子的Cux2不显示出相同的区域特异性。作者还鉴定了许多其他转录因子基因,这些转录因子均表现出了皮质区特异性(图5c)。观察到的这些甲基组空间梯度证现象明了作者的数据集对于进一步探索细胞类型分辨率的大脑皮层区域化具有很高的价值。
DG颗粒细胞从低到高分布在UMAP包埋的mCH和mCG中(图5d),这一梯度与脑切片的前后位置相关。在出生后大脑发育过程中,mCH在整个基因组中会持续积累。作者推测,DG颗粒细胞在其有丝分裂后成熟过程中可能会积累mCH,整体mCH应该与颗粒细胞的成熟度相关。为了研究这一点,作者根据DG颗粒细胞的整体mCH水平将其分成四组,并研究了各组之间的差异甲基化区域。作者在四组间鉴定出219,498个梯度CG-DMR,其中139,387个呈正相关(+DMR),80,111个呈负相关(−DMR)(图5e)。值得注意的是,重叠的+DMR和−DMR具有不同的注释功能:富含+DMR的基因(+DMR基因,n=328)与发育过程有关,而富含−DMR的基因(−DMR基因,n=112)与突触功能有关。
细胞类型与空间预测模型
为了进一步量化在单细胞DNA甲基组中编码的空间和细胞类型信息,作者使用本研究中细胞水平的甲基组数据建立了一个深度人工神经网络(图6a)。具体来说,就是使用 100-kb bin的 mCH进行五重交叉验证。人工神经网络可以同时预测每个细胞神经元亚型的同一性和空间位置,准确率分别为95%和89%(图6b-d)。值得注意的是,人工神经网络的位置预测精度比只使用亚型的空间分布信息更高(总体提高了38%),这表明空间多样性在神经元DNA甲基组数据中得到了很好的保存。作者还注意到,在某些细胞类型的位置预测中,特别是在皮质MGE和CGE抑制神经元中,误差水平较高(图6c)。这一发现与之前基于转录组的研究一致,说明这些神经元不会表现出很强的皮层区域特异性。许多细胞亚型marker基因还富含了大多数可以捕捉空间信息的特征(图6e,f)。
在这篇文章中,作者总结出了一个小鼠大脑的单细胞DNA甲基组图谱,并进行了详细的空间分析。这一全面的数据集使得高通量细胞类型分类、marker基因预测和调控元件的识别成为可能。总计定义了161个亚型,分别代表兴奋性细胞(68个)、抑制性细胞(77个)和非神经细胞(16个)。基于CH-DMG的细胞亚型分级分类体系的发展使我们能够使用甲基化影响系数将特定的基因和转录因子结合基序分配给不同的分类系统。这项工作描述了不同水平的细胞类型特异性,潜在地与每个神经元不同的发育阶段有关。总体而言,作者的分析强调了这种数据集可以利用来自基因组编码区和非编码区调控元件的基因活性信息来表征细胞类型。该表观基因组数据集可以解答特定细胞类型空间多样性的基因调控问题,并为开发针对特定细胞类型和功能测试的分析工具打下了基础。
原文解读: