编译:小北,编辑:夏甘草、江舜尧。
原创微文,欢迎转发转载。
导读
在哺乳动物胚胎形成过程中,差异基因逐步构建起每个组织和器官系统的命运和复杂性。在本文中研究者系统的定量了10.5天胚胎的发育到出生小鼠,17个组织和器官的polyA-RNA,由此产生的发育转录组通过动态的细胞分化、体轴以及细胞增殖基因组整体构建,并且进一步通过它们启动子区转录因子基序密码子描述。研究者利用单细胞RNA-seq解析了组织水平的转录组,并且发现在基因和细胞水平上神经发生和造血占主导,共同揭示了1/3分化基因的表达并且确定了超过40%的细胞类型。通过将启动子序列基序与ENCODE表观遗传图谱整合,研究者在神经元表达集簇中确定了显著的启动子去抑制机制,该机制归因于已知的和新型的抑制因子。聚焦于发育树,单细胞RNA数据确定了25中候选的细胞类型,包括祖细胞和计算机推断种系关系的分化状态。研究者通过利用单细胞RNAseq分离了细胞类型转录因子网络并且增强子元件的互补集,以解析整合来源于整个组织表观基因组染色质数据中的顺式元件(IDEAS)模型。这些ENCODE参考数据、计算网络组成以及IDEAS染色质片段是与表观基因组发育基质匹配的参考资源并且可用于研究者进一步挖掘和整合。
原名:The changing mouse embryo transcriptome at whole tissue and single-cell resolution
译名:小鼠胚胎转录组在全组织和单细胞分辨率上的变化
期刊:Nature
影响因子:42.778
作者:Brian A. Williams
单位:加州理工学院
发表时间:2020年7月29日
DOI:10.1038/s41586-020-2536-x.
层次的转录程序能够调节哺乳动物的组织发生,组织发生是一个改变细胞命运、数量和定位的时空协调过程。当前RNA-seq的时间进程能够全面定量表达轨迹,包括驱动图谱、细胞类型特异性和分化的转录调节因子及其它们的调节靶基因。在本文中研究者系统的绘制了小鼠聚腺苷化RNA转录组,追踪了从胚胎10.5天到出生12个涵盖器官发生和组织发生的主要组织(图1A)。与整合的调控分析和重塑相关,这些RNA表达数据是ENCODE Consortium 小鼠胚胎计划的一部分,为同一样本矩阵中全基因组microRNA、DNA甲基化、组蛋白标记以及染色质可及性数据组提供了参考。为了更好的解释核心样本组,研究者在P0添加了五个额外的器官,共计取样17个组织。因为这些全组织数据是供社区使用的,包括与高分辨率的单细胞转录组整合,研究者选取了一个能够在全部组织和单细胞范围应用更加广泛的RNA-seq方法,并且已经应用于ENCODE中其他单细胞RNA-seq以及其他地方。单细胞RNA-seq被越来越多的应用于发现和定义组成细胞的类型和状态,它们构成了复杂的组织,例如作者整体mRNA-seq模型中的结果。特别是对于胚胎发生和再生系统,scRNA-seq有望进一步解释一直以来存在的问题:在发育种系以及控制转变的调节机制中中间物细胞类型的特性和数目。最终scRNA-seq是通过与个体细胞转录因子条目比对为基因网络重塑提供重要的资源。不同的当代scRNA-seq方法具有互补优势,一些方法例如FluidigmSMART-seq,能够评估相对较少细胞数量而具有较高的转录检测效率以及RNA亚型的识别覆盖率;而其他的方法例如10x Genomics需要捕获更多的细胞数量而转录检测效率更低并且没有亚型或者启动子应用的信息。研究者呈现了一种包含发育树数据类型和组织序列的ENCODE scRNA-seq。研究者确定了分枝细胞谱系及其它们的状态,并将它们分离为相应的细胞类型标记物基因组、转录因子调控网络、以及TF结合基序上远端的调节元件。更高灵敏度数据类型还发现谱系特异调节因子在早熟发育中低水平的转录,支撑了计算机种系推断的模型。发育基因组的一个新目标是利用单细胞分辨率全面绘制胚胎发生过程顺式-和反式-调节编码。对这一方向的研究,研究者利用scRNA-seq的数据解析了基于全组织ENCODE表观数据中IDEAS超级增强子元件模型,由此对活化和停滞增强子元件的收集、可分析细胞类型和阶段、补充匹配的反式作用TF网络。所有主要的RNA-sesq数据以及组织水平和单细胞实验对过程的定量在ENCODE都可应用(https://www.encodeproject.org)。小鼠从中期妊娠(E10.5)到出生(P0)的发育时间包含许多组织发生和器官发生(图1a)。转录组时间进程依据它们各自的组织命运以及发育时间聚类,结果通过PCA分析、t-SNE以及层次聚类展示(图1b、1c)。总之,这一polyA-RNA转录组包含84%已知蛋白编码基因以及44%的长链非编码RNA(lncRNA)基因,大多数在矩阵中表达水平以10倍或者更高倍数变化,而另外9085个基因表达更加统一。FANTOM5小鼠资源中包含许多相同的组织和阶段,但是是基于CAGE启动子的数据。研究者检测了13,999个蛋白编码基因中97%的基因,加上FANTOM5中未检测到的5,035个。
图1 全组织polyA-RNA转录组结构及细胞类型分析
全转录组结构
神经发生和造血使全数据结构极化,这些系统中的转录组占据了前两个主要成分(PCs)相对的两端(图1b、c)。表达的转录组中几乎1/5(大约5000个基因)清楚的定义了这一分化轴线,对于量化单位的选择以及组织表现。因为全组织数据包含所有组成的细胞类型、细胞命运潜在的转录组以及组织发生中构成细胞的比例(图1a)。研究者因此探究了细胞类型标记物的基因以及从近期单细胞小鼠全胚胎研究到研究者的转录结构中确定的细胞(图1d)。结果发现高度复杂的CNS和造血基因图谱与单细胞解析确定的细胞内的高度多样性对应,超过40%的细胞类型与CNS和造血基因集簇匹配。单细胞项目进一步确定了许多基因集簇或者亚簇的组织水平上的表达(图1d)。
时间的驱动因子
组织水平发育的改变是研究者所期盼的,但是研究者在此之前并不知道什么基因和功能能够主要确定时间轴线或者它们在组织、器官或者细胞空间中如何分布。对所有组织的分析发现时间的驱动因子分为三类:
1. 普遍的:PC3能够很强的捕获到一个整体的时间组分(图1b),通过细胞增殖机制的广泛减少以及早期红细胞标记物在细胞水平进行解释。前100个PC3阳性负荷的基因在有丝分裂细胞周期组分中高度富集,这些成分能够与表达集簇21匹配(图1c),反之,与基质细胞以及早期红细胞类型匹配(图1d)。此外,基质细胞标记物在细胞周期基因中富集,反之亦然。因此PC3普遍的转录组时间轴至少部分可通过循环中原始红细胞系统范围内逐步消失以及在一些组织和器官中增殖的基底细胞的相对比例减少。
2. 特异性和分化:数量最多并且最多样的时间驱动因子影响细胞分化的信号通路。例如,PC5主要在分化的四肢和脸部骨骼肌系统中,高负荷PC5集簇2包含的基因转变为肌生成的过程(图1c)。在CNS组织中神经元和神经胶质细胞的分化在PC1中是最重要的,主要由集簇34中的基因标记,并进一步通过细胞亚群与单细胞标记物的分布分离开(图1d)。3. 组织内细胞迁移:活动性的细胞群体侵袭或者存在,对于一些组织的发育是非常重要的,接下来研究者利用四肢的scRNA-seq数据进一步分析。在整个组织中,包括血液在造血组织起源(肝脏)中逐步占主导,随后在其他组织中出现(图1c),而肝脏集簇10中标记成熟B细胞的基因出现,随后在发育的淋巴腺组织中出现。
其他数据结构
更多动态的生物学结构在主要的集簇水平中进行系统总结并且进一步对每个集簇和亚集簇进行注释。依据已知的位置代码,前后空间轴线在前20个PCs中的6个不同Hox集簇成员中富集。对感兴趣的特异基因簇进行重新分析或者利用特异的算法能够获得其他信息,例如microRNAs与预测的polyA-RNA靶向的反相关性。为了评估转录组结构上元数据特征的其他效应,研究者采用经典的相关性分析(CCA),该方法能够确定基于解剖的批次效应以及性别特异性的表达,可能对未来数据应用具有相关性。
转录因子基序的拓扑异构
通过聚类揭示的RNA共表达图谱部分是由于转录共调节导致的。共表达基因启动子区TF识别序列基序的频率升高能够将特异的TFs或者TF家族与它们的靶基因和调节元件计算联系起来。研究者检测了每个表达簇中所有基因近端启动子(转录起始位点上游500 bp)(图1c)。研究者构建了二部图以确定了组合基序代码与其源表达式聚类之间的局部和整体的关系(图2)。首先,结果中307个显著富集的基序如所期望的一样有局部的联系:致命性肝脏集簇10以造血(GATA1, GATA2, RUNX1, BCL11A)和肝脏的(SMAD1, PPARG, NR1H2)的标记物为特征;高度特异的Rfx因子家族标记其纤毛簇(集簇28);E2f家族在前面讨论的细胞周期主体集簇21中显著。
图的拓扑结构也显示二进制和高次基序共享代码,能够选择性的与特异表达集簇启动子节点之间联系(图1c),提示它们能够共同使用确定的或者类似的TFs。在高水平上,首次在转录组中观察到造血(集簇10)中神经发生(集簇34)的显著分离不依赖于基序的代码出现,且只有两个具有相同的基序,而其他的集簇彼此之间具有许多基序。广泛表达的集簇具有整个集簇最强最多的基序富集,具有Ets和Cre族的广泛代表性(图2b)。这些家族的富集和占据与人类管家基因相关。最终在表达簇中最广泛的代码共享是与CNS神经元集簇之间,能够与不同组织起源和功能主体的一些其他集簇相关联(图1c)。对于这种以CNS为中心的共享模式,一个合理的解释是许多参与的TFs在进化期间被招募以支撑哺乳动物增多的神经元多样性。
集簇特异性的调节机制
转录组结构和对应的启动子基序资源为确定集簇特异的调节机制提供了入口。例如在匹配样本中将转录组和全表观图谱整合发现在早期发育时间点上调的大脑集簇34具有很强的抑制型组蛋白标记密度(H3K27me3),并且随着RNA表达轨迹升高而降低。随后在所有集簇中相对于RNA输出,在H3K27me3启动子区信号上对发育差异的整体定量发现,大脑集簇30, 32,34对于H3K27me3调节的去抑制机制显著,尽管许多其他集簇RNA轨迹也同样上升。研究者之前对DNA基序富集分析发现神经元抑制因子Rest基于在集簇34启动子区特异性的高度富集(图2b)。通过独立的ChIP-seq研究推断REST可能的靶基因也在集簇34中特异性富集,一定时间后在脑组织中Rest RNA的表达降低,并且REST占据的启动子在早期时间点具有更大的H3K27me3信号富集,在CNS聚焦的去抑制中的重要角色一致。体内结果与神经元祖细胞在早期体外研究中一致,但是与胚胎干细胞中的报道H3K27me3在REST位点并不富集不一致。除了REST,其他在集簇34或者32富集的转录抑制因子也表现出随着发育进程表达轨迹消失,例如Zfp219, Zbtb1, Zbtb3, Zfp740(图2b),而其他假定的C2H2锌指转录抑制因子识别的基序尚不清楚,在CNS富集的表达集簇33中聚集,其整体的表达轨迹下调。研究者的模型是在大脑发育中这些转录抑制因子为广泛的H3K27me3调节的抑制和去抑制过程提供额外多样和特异的靶向。由于个体结合的靶基因和衍生的基序都是确定的这将是可检测的(https://www.encodeproject.org/matrix/?ty pe=Experiment&status=released&assay_title=TF+ChIPseq&award.rfa=ENCODE3&award.rfa=ENCODE4&lab.title=Michael+Snyder%2C+Stanford&lab.title=Richard+Myers%2C+HAIB)。在另一项分析中,研究者检测了大的广泛存在的集簇并且发现证据表明在这一广泛的集簇中转录后机制在设置不同表达水平中具有重要的作用。
图2 图1中动态表达集簇的启动子基序代码
单细胞分辨率下组织再生
从E10到E15.5,来自一个简单的肢芽到发育中的前肢过程主要由未分化的中胚层到一个具有明显骨骼、肌肉、血管、造血和皮肤组织系统高度图案化的结构组成(图3)。研究者收集了两种类型的scRNA-seq数据,每一个都跨越与母细胞全组织研究一致的时间点:1)从C1平台捕获920个细胞,以相对高的深度进行测序,实现灵敏的RNA检出率以及可与整体数据比较的全长转录的覆盖率;2)来自10x Genomics 3’end-tag平台的约90000个细胞,扩展细胞类型的发现。在更高分辨率的数据中,研究者检测到了15931个蛋白质编码基因(91%)和938个lncRNAs(71%),与肢体全组织时间进程重合的基因分别有91%和71%。将这些数据与已经发表的全胚胎scRNA-seq的数据比较发现细胞类型关系中期盼的重合以及在15314个蛋白编码基因中表达基因的显著重合,并且仅在胚胎和前肢中分别发现2230和637个基因。这与全胚胎研究细胞宽度更大vs前肢研究中细胞和分子覆盖率更深一致。
驻留的和侵入的细胞类型
在所有细胞中对差异表达最大的基因进行聚类确定了主要的祖细胞和分化的细胞类型,并且在他们之间发现了相似的关系(图3a-c)。假定的细胞命运分配是基于GO富集分析以及已经发表的发育研究所报道的“标记物”基因(图3a、3b)。在两项研究中主要的细胞类型包括驻留的肢芽间质以及软骨和成骨衍生物,加上独立移行的且能够产生肌原性单核细胞/巨噬细胞、内皮或神经嵴衍生物的谱系。这些10x的数据也为其他14个细胞类型和状态提供了证据。当研究全组织转录组并且与相似研究的全胚胎scRNA-seq数据比较,这一更深且更加聚焦于四肢的样本发现谱系的亚分裂以及与全胚胎相比一些类型的形成。
血统进化和推论
全转录组t-SNE、UMAP以及系统聚类分析分离了细胞类型(图3a-c)并且随后绘制了时间轨迹(图3d)。大的多核肌管表现不足,加之其他可能的分裂、差异细胞的捕获和存活以及随机抽样文库都相对于通过CIBERSORT的全肢RNA数据进行评估以产生一个校正过的组织比例模型。计算的UMAP和Monocle谱系模型(图3c、e)与经典的和现代的追踪研究以及基因敲除推断一致,同时也确定了新的关系以及相关的调节因子。在肌源性系统中,早期祖细胞需要TF PAX3以从邻近肢体节转移进入肢芽。Pax3的确是定于肌肉1细胞集簇中差异最大的基因,映射出最早期Monocle伪时间组(图3e)。进展中的阶段以及这些阶段中推断出的关系是由差异表达基因中整体的相关联图谱确定的,而肌发生中特异的标记物基因提供了生物学的解释以及假说的生成(图3e)。Monocle肌源性谱系模型表现出了两个分支点(图3e)。第一个(包括真正的时间和伪时序)产生了分支1A,与肌干细胞中一个重要的已知群体一致,后者能够使成人肌肉中再生细胞升高。它们由基因相关PAX7调节因子以及直接的靶基因MSC标记,抑制肌细胞的分化。从分支点,一个胳膊导致Tnnc标记的成熟肌细胞(分支2B),而分支2A并不是所希望的。它形成了一个以表达间质肌成纤维细胞(IMFs)为特征的细胞群体,例如Col1a1、Osr1/2。以及经典的肌源性标记物如Myod1、Myog(图3e)。研究者证实在发育的前肢中个体的细胞能够与肌肉和IMF标记物蛋白共同被免疫染色。这一表型重塑了小的以及有点神秘的10x集簇22,以及第二个包含集簇22的Monocle模型。考虑到前期的证据表明成人组织IMFs中具有潜在的肌源性特性,这使得研究者对发育起源、成人命运以及生物学重要性提出问题。更重要的是,研究者证实、拓展了之前微阵列利用FACS对肌肉祖细胞群体进行富集,以及近期PAX3–GFP-选择性基因的scRNA-seq的结果。研究者Monocle肌发生模型中具有一些Trapnell构建的先锋模型中共有的特征,尽管这一模型也反映出体外成人肌肉再生以及体内胎鼠肌发生中实质性的差异。在造血种系内,研究者在四肢发育的早期阶段在它们异常强大的标记基因的帮助下确定了红系骨髓祖细胞(EMPs)和巨噬细胞,这与驻留在四肢的EMPs的四肢巨噬细胞发育是一致的。最终骨生成系统以及驻留的间质祖细胞是整个时间轨迹最大的肢体成分。凝集、扩张并且分化成软骨和骨是驻留在四肢间质的主要命运,通过UMAP图(图3c)和Monocle模型进行展示。这些模型主要由来自间质的假定的软骨细胞以及成纤维细胞/软骨膜细胞分为两个主要的分枝。被检测的结构划分和排序并不如肌生成那么清晰,需要致力于一个更加精细的单细胞骨骼肌形成的分解模型将细胞取样和空间基因组结合,以捕获更多的解剖学线索。
图3 对前肢组织生成的单细胞分析
反式作用细胞类型的TF网络
每种细胞集簇有大量差异表达的TFs。在肌原性谱系中,这些差异的TFs在三种具有不同的调节以及谱系参考重要性的模型中表达(图3f):1)以清晰的阶段限制布尔模式分离细胞的不同阶段,包括已知的因果转录因子Pax3、Pax7、Msc、Myog,加上新添加的如Sp5和Sox8;2)一些谱系限制性统一表达的调节因子,其表达图谱定义了整个谱系(Pitx2和 Six1);3)表达水平分级的多阶段TFs,如Myod1和Pitx3,其表达参与两个或者更多的阶段,而尽管如此仍定量区分阶段(图3f)。一些调节因子,包括被广泛认为仅在谱系的后期阶段发挥作用的TFs,能够被检测并且在早熟的表达水平较低,但是仅在更加敏感的C1数据中(图3f)。例如,Myod1的低水平表达在众所周知的成肌细胞-和心肌细胞起MYOD1功能之前的pax3表达的细胞中被检测到。这意味着Myod1位点在此时已经打开,并且在E10.5 ENCODE DHS组蛋白标记物数据可视化确定的特异性远端和启动子-近端位点也证实了这一观点。研究者利用已知的蛋白和基因的相互作用将所有细胞类型分化的TFs组织到它们对应的相互作用网络(图4a)发现泛血统和分级因素在肌源性谱系进展的阶段广泛的改变了相互作用的伙伴。低水平分级模式基因提供的参考价值是平台的敏感性以及C1数据监测系列阶段中期望的表达时更高的灵敏度,而这在研究者10x数据中很难监测到。
顺式作用细胞类型元件
ENCODE全组织组蛋白修饰、染色质可及性以及DNA甲基化数据提供了可能通过计算机在整个组织水平推断候选调节元件丰富的生物化学特征,但是缺乏细胞类型的分辨。为了分析依据细胞类型或者状态选择性活化的元件(图4b),研究者首先利用参考四肢DNase峰图calls定义了生化上活化序列元件的边界。随后研究者利用IDEAS了解和总结了复杂基因组片段的表观特征,并且对于活化或者共价IDEAs重合的那些DNase峰图进行分离。研究者基于scRNA-seq测量的相关基因差异表达将一种元件分配为一种细胞类型。在2208个细胞类型和谱系特异性的基因中,研究者总结了活化和共价的特征,在22230受访者中,2018 (91.4%)至少有一例活化或者稳定。多个候选元件的个体位点,加上IDEAS状态追踪以及发育的DHS和RNA表达图谱在生物学上重要的软骨源性、肌源性以及巨噬细胞示例中均有表现(图4c)。基于研究者整体元件恢复以及之前肢体组织重建的结果(图3d),研究者评估了整个肢体表观数据对确定证实的细胞类型增强子具有敏感性,包含少于5%的开始群体。
研究者评估了收集的所有元件中与VISTA转基因小鼠数据库中经验检测顺式调控元件重合的部分。对于重合的部分63%的在研究者主要的细胞类型中被证实为活化的VISTA增强子(图4d)。研究者并不期盼所有IDEAS重合的元件在VISTA中都是正值。VISTA典型的空间结构域包括肢体LacZ转基因但是通常显示染色胚胎的其他位置,因为研究者主要的细胞类型在机体的其他地方存在并且并未限制在肢体。相反,在VISTA中一些空间图谱的肢体元件并不仅在一种细胞类型中出现。与从CAGE数据库中计算的小鼠FANTOM的增强子和启动子相比,在组织中发现了更广阔的样本,研究者整个肢体IDEAS组分别与FANTOM启动子和增强子的44%和30%重合。其中,在作者细胞类型收集中占14%,而另一大的群体并未在FANTOM数据组中,该样本的收集量更小。
在细胞类型IDEAS远端元件或者在启动子富集的转录因子结合基序被组织在计算的图表中,提示种系相关集簇结通过在状态和相关细胞类型中共有的基序相互联系。神经嵴由于较大数量的远端基序而引人注目,其中包括一些Hox家族成员,可能反应出对特异性和迁移位置信号梯度的应用。研究者同样分离了在细胞类型特异方式中显著缺失基因的基序代码。这类基因在早期造血细胞中占据主导,它们的启动子在抑制因子和Hox基序中显著富集。研究者在其他细胞类型中推测了贯穿整个胚胎沉默的基因能够活化应答位置信号通路。
图4 特异肢体细胞类型中推断的反式和顺式调节网络
总之,与之前理论相似的效应比较,ENCODE胎儿转录组的优势是整合表观遗传组学和microRNA资源。在上述肢体的示例中研究者发现scRNA-seq可被应用于依据细胞类型分解组织水平的表观遗传学。该方法可以在更加复杂的算法中利用整合单细胞实验与scATAC-seq得到推广和进一步的加强。研究者利用scRNA-seq的数据解析了基于全组织ENCODE表观数据中IDEAS超级增强子元件模型,由此对活化和停滞增强子元件的收集,可分析细胞类型和阶段,补充匹配的反式作用TF网络。所有主要的RNA-sesq数据以及组织水平和单细胞实验对过程的定量在ENCODE都可应用(https://www.encodeproject.org)。
更多推荐
1 高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)