科研 | Molecular Cell:华盛顿大学:高通量单细胞测序和线性扩增
编译:卡德加,编辑:十九、江舜尧。
原创微文,欢迎转发转载。
传统的单细胞基因组测序方法在一致性和通量方面受到限制,本文研究者据此开发了一种结合组合索引(sci-)和线性扩增(L)的单细胞测序方法(sci-L3)。sci-L3方法采用三层索引方案,最大限度地减小扩增偏差,同时实现了通量的指数增长。研究者结果证明sci-L3方法能广泛用于单细胞全基因组测序,包括(sci-L3-WGS),靶向测序(sci-L3-target-seq),以及基因组和转录组的联合分析(sci-L3-RNA/DNA)。研究者应用sci-L3-WGS技术分析了来自F1代杂交小鼠的10000个精子和精子前体的基因组,绘制了86786个交叉图谱,并描述了减数分裂中罕见的染色体错分离事件,包括全基因组染色体均等分离的实例。
论文ID
原名:High-ThroughputSingle-Cell Sequencing with Linear Amplification
译名:高通量单细胞测序和线性扩增
期刊:Molecular Cell
IF:14.548
发表时间:2019.11
通讯作者:Yi Yin
通讯作者单位:华盛顿大学基因组科学系
DOI号:10.1016/j.molcel.2019.08.002
结果
Sci-L3-WGS和Sci-L3-Target-Seq的概念
sci-L3策略相对于当前的替代方案和任何简单的sci-和LIANTI的组合都有很大的优势。sci-L3-WGS和sci-L3-target-seq的三级组合索引扩增流程如图1A所示:(1)细胞被甲醛固定,SDS使核小体耗竭,细胞核被放置于首轮孔板中;(2)在每个孔板中,通过索引Tn5“标记”来添加第一轮条形码。在条形码中5’处加入间隔序列作为后续连接步骤的“着陆点”(图2);(3)所有的核被汇集起来并重新分配到第二轮的孔板中;第二轮的条形码是通过连接加上一个T7启动子定位在两个条形码之外;(4)所有的细胞核池化并排序到最后一轮的孔板。不同倍体的细胞核可以被门控和DAPI染色富集。此外,简单稀释法可以替代荧光激活细胞分选法(FACS),减少损失;(5)分选后的细胞核被裂解并进行间隙扩展,形成双链T7启动子。然后是IVT,逆转录(RT)和第二链合成(SSS)。在SSS过程中会添加第三轮条形码,以及唯一分子标识符(UMIs)标记单个IVT转录本。(6)Duplex DNA分子(图1 b),每个片段包含三个条形码定义他们的起源细胞,兼容sci-L3-WGS的文库制备或sci-L3-target-seq改性方法。
图1 Sci-L3-WGS能够通过线性扩增实现高通量单细胞测序。A:Sci-L3-WGS流程。B:上图:DNA双链的条形码结构。Bc:条形码;sp:间隔区;gDNA:基因组DNA。中图:sci-L3-WGS的示例文库结构。P5和P7测序接头通过A-tailing和连接法添加。下图:sci-L3-target-seq的示例文库结构。C:在较低的测序深度下,由人类和小鼠细胞中Tn5唯一插入数的散点图,每个孔分选100-300个细胞。蓝色为推测的小鼠细胞,红色为推测的人类细胞,灰色为推测的混合细胞。D:箱形图显示每个细胞唯一的Tn5插入数,平均为每个细胞240万个原始reads,深度为1.78倍。深度定义为唯一的IVT转录本与唯一的Tn5插入的比率。E:示例细胞的染色体拷贝数图。F:822,293个T细胞或1,453个 HAP1细胞拷贝数变化的箱形图。
作为验证,研究者混合小鼠和人类细胞,并进行sci-L3-WGS。对于生成的95%的单细胞基因组,绝大多数reads映射到小鼠或人类基因组(图1C)。sci-L3-WGS的优点包括:(1)通常可以回收90%的分选细胞,而sci-DNA-seq只能回收60%。(2)在与原始数据减少了40% reads的情况下,sci-L3-WGS在每个细胞中产生97,000个独特的Tn5插入。将较少的细胞测序到更高的深度,研究者观察到每个细胞有660,000个独特的Tn5插入,同时能保持较高的文库复杂性,这表明进一步提高了20倍性能。(3)可映射比对率从LIANTI的61%提高到sci-L3-WGS的86%。这可能是因为LIANTI完全是内管的,所以很难去除噪音。(4)不像基于PCR的方法重复产生相关的错误,sci-L3-WGS的“重复”读取几乎总是对应于原始模板的独立转录本,因此对挖掘变异很有用。
使用sci-L3-WGS,Tn5平均每0.5-1.5 kb插入人类基因组,IVT产生1000个转录本。这相当于2-6百万个独特的Tn5插入,因此每个细胞有20-60亿个独特的IVT转录本。显然,将这些库按顺序排列到饱和状态是不切实际的。研究者将深度定义为所测序的唯一转录本与所映射的唯一Tn5插入的比值。在本研究中,大多数文库的测序深度为1-2倍,每个细胞的基因组覆盖率为0.5%-5%,在人和小鼠混合实验中,每个细胞唯一的Tn5插入量分布如图1D所示。代表性单细胞的相对染色体拷贝数估计值如图1E所示,其在所有细胞中的分布如图1F所示。
对于sci-L3-target-seq,在第二链合成后,研究者通过PCR添加了一个带有第三种条形码的引物,而另一个引物针对特定的基因组区域(图1B下)。在分子水平上,研究者修改了基于sci-和LIANT的几种方法,并在图2中描述了每个条形码步骤后分子的结构,并讨论了这些设计的原理、可扩展性和成本。对于1000个、10000个和100万个单细胞库,研究者估计sci-L3-WGS的成本分别是1.5%,0.26%和0.014%。
图2 Sci-LIANTI每个步骤的分子结构。A:Tn5接头均有5’末端磷酸化,一个用于插入,另一个用于连接。退火后的转座子的外伸部分包含用于连接的第一轮条形码(bc1)和间隔(sp1)。B:将连接分子预退火为发夹环,将分子间连接由3个分子减少为2个分子;该发夹结构还有助于提高下游步骤的RT效率。该发夹包含(1)用sp1进行连接退火的overhang,(2)第二轮条形码(bc2)和作为下游步骤中SSS茎中的引物的隔离物(sp2),以及(3)IVT环中的T7启动子。C:间隙扩展(gap extension)将循环的T7启动子转换为双螺旋。D:IVT在T7启动子下游产生单链RNA扩增子。E:如果两端连接成功,则RT偏好由自环状RT引物启动,该自环状RT引物继承自环状连接分子;如果仅在一端连接成功,则过量添加额外的RNA RT引物来启动RT。在SSS前去除多余的RNA引物,以避免干扰SSS反应。F:双链DNA分子由SSS产生,SSS启动sp2,同时向每个转录本添加第三个条形码和UMI标签。虚线表示RNA,实线表示DNA。
sci-L3可以进一步适应于其他核酸靶标的修改,研究者开发了一种sci-L3-RNA/DNA联合分析。简而言之,第一轮DNA条形码是通过Tn5插入来完成的,就像sci-L3-WGS一样,同时进行了第一轮RNA条形码的插入,并用条形码标记RNA(图3A)。Tn5插入引物和RT引物都承担着介导第二轮条形码和T7启动子连接的overhang,有效地实现了三级标引和随后基于IVT的线性扩增,其方式与sci-L3-WGS基本相同(图3A和3B)。作为验证,研究者将小鼠细胞与来自两个人类细胞系的细胞混合,并进行sci-L3-RNA/DNA联合检测。对于绝大多数细胞,RNA/DNA reads要么映射到小鼠基因组,要么映射到人类基因组(图3C和3D)。此外,与联合分析一致,100%的细胞被其RNA和DNA标记为相同的物种。进一步执行t分布随机基于其RNA谱t-SNE,产生两个簇。通过在DNA图谱中标记每个细胞是否存在Y染色体,识别出BJ(男性)和HEK293T细胞(女性)(图3E),准确率为96.5%。
图3基于sci-L3的RNA/DNA联合检测技术使单细胞基因组和转录组的联合检测成为可能。A:sci-L3-RNA/DNA联合检测的原理图。B:由此产生的对应于基因组(左)和转录组(右)的扩增双链的条形码结构。C:人类和小鼠细胞在低和高的测序深度上Tn5唯一插入数的散点图。D:与(C)中的RNA相同。蓝色,推断小鼠细胞;红色,推断人类细胞;灰色推断为混合。E:基于RNA谱的t-SNE产生了两个与BJ(男性)和HEK293T(女性)细胞相对应的簇。
利用Sci-L3-WGS技术分析小鼠生殖细胞单细胞DNA
在正常的有丝分裂细胞分裂过程中,二倍体染色体进行复制产生四份DNA副本,姐妹染色单体分裂成相互的子细胞。研究者首先试图分析不育F1雄性附睾(B6×Spret)细胞的减数分裂。在两个实验中,研究者分析了2,689个基因组和4,239已排序的单细胞。在深度为两个文库的1.6倍和1.4倍时,得到的中位数为每个细胞有70,000和144,000个独特的Tn5位点,分别相当于0.7%和1.4%的中位基因组覆盖率。为了识别交叉断点(crossover breakpoints),研究者构建了一个隐马尔科夫模型(HMM),它依赖于高质量的reads,可以明确地分配给B6和Spret。研究者鉴定了1663个1C细胞的交叉(图4A)。尽管约5200个 2C细胞绝大多数被认为是体细胞,但仍鉴定出292个具有大量交叉的细胞,我们称之为M2细胞(图4B和4C)。更令人惊讶的是,其中相当大一部分表现出平等而非简化的隔离状态。
发生同源交叉后,如果染色体以还原方式分离,则着丝粒和交叉位置之间的区域将成为纯合子,而在交叉下游将保持杂合性。然而,如果染色体以一种均等的方式分离,那么当重组的染色单体分离时,LOH在交叉的远端被观察到着丝点。图4B显示了一个M2细胞表现出预期的还原分离的例子(注意着丝粒和交点之间的纯合性),一个M2细胞表现出意外的均等分离的例子如图4C所示(equational segregation)。
在任何给定的M2细胞中,单个染色体的分离模式是独立的吗?如果是这样的话,在整个细胞中,将会看到染色体在还原分离和在均等分离中的二项分布,集中在还原分离概率的最大似然估计(MLE)上(图4D)。然而,在292个M2细胞中,观察到202个带有R15染色体的细胞(148个预期),38个细胞具有R15等距分离染色体(0个预期)(图4E)。这种非独立性暗示了一种细胞自主的全局感知机制的可能性,用于决定一个细胞是继续减数分裂还是返回到有丝分裂。
研究者通过M2细胞中的染色体是否存在交叉来进一步对细胞进行分类(图4F)。在292个M2细胞中,观察到4162例还原分离(90%有交叉)和1310个例均等隔离(交叉部分占49%)。在图4F中,在等距分离的染色体中,有(绿色)和无(蓝色)可见LOH的比例大约是1:1。这可能意味着染色体的等距分离。如果那些完全杂合的染色体(如蓝色所示)确实有一个连接开关,或者是那些等距分离的染色体总是将重新结合的染色单体分开,并且交叉频率比还原分离的染色体减少一半,则将重新结合的染色单体分开的几率为50%。
图4种间杂交小鼠雄性生殖系的Sci-L3-WGS揭示了MI中许多非独立的均等隔离的例子。A:1C细胞的交叉图示例。B:以M2细胞还原分离的LOH图示例。C:M2细胞均等分离的LOH图示例。D:基于二项分布的约化与均等分离的期望分布。E:M2细胞观察数据。在罕见的情况下(27/5,548条染色体),由于稀疏的SNP覆盖,研究者不能区分约化分离和均等分离。F:与(E)相同,但被有或无交叉的染色体数目进一步分解(缩写为“CO”)。细胞首先按均等分离的染色体数目(淡绿色和蓝色,按降序排列)排序,然后按未交叉的均等分离的观察染色体数目(蓝色,按降序排列)排序。
在哺乳动物有丝分裂细胞中,片段或全染色体级别的LOH较为罕见。尽管如此,为了排除此类事件的有丝分裂起源,研究者在Patski细胞系中检测了此类事件,Patski细胞系是来自雌性(B6 3 Spret) F1小鼠的自发永生细胞系(spontaneous immortalized cell line)。研究者想知道,在种内雄性可育后代(B63型)的MI期间是否也发生等分隔离,因此对来自附睾和睾丸的细胞进行sci-L3-WGS检测。
在第一次质控(QC)中,研究者将1C精子细胞均匀分布,仅对1C细胞进行两轮条形码分选。由于双重态是非1C的,因此可以对条形码冲突进行量化。在2400个分选细胞(200/孔)中,回收了2127个(89%),每个细胞中有7000个>;其中的2008个是带有减数分裂交叉的1C,表明条形码的碰撞率为5.5%。在测序深度为1.06倍时,共得到中位数为60,000个独特的Tn5插入,相当于0.6%的中位基因组覆盖率。在第二次实验中,一共恢复了3539个1C和1477个非1C细胞。97%以上的1C细胞来自条形码组1 (n = 1,853)和2 (n = 1,598),而不是3 (n = 88),这表明sci-L3-WGS不能很好地恢复附睾成熟精子。这表明从上述(B6 3 Spret)杂交中获得的1C细胞也可能不是来自成熟精子,而是来自圆形精子细胞,这与成熟形态精子数量少的情况一致。1477个非1C细胞均来自于两种条形码组1(n = 1104;精子双体)和2 (n = 373;可能是真正的M2细胞和1C双核的混合物)。为了鉴定1C双重态的特征,研究者检查了来自条形码组1的非1C细胞的概况。已完成两轮减数分裂的1C细胞的近端SNP应该是B6或Cast drived。因此,在任何给定的1C双重态中,出现均等分离的染色体数目,以及出现缩小分离的染色体数目,应遵循二项分布,n = 19, p = 0.5。(p = 0.53,卡方检验;图5A和5B)。事实上,至少有15条染色体的11个1C双态细胞以一致的方式分离,无论是均等还是在约化状态(equationally orreductionally)。
来自第二组条形码的非1C细胞呈现出非常不同的分布。在373个这样的细胞中,258个与条形码组1的1C双链相似,具有相同数量的染色体,并具有相等或约化的分离模式。剩下的115个细胞是有偏差的,至少有15个染色体以一致的方式分离,无论是均等的还是减少的(图5C-5E)。
图5 种内的Sci-L3-WGS杂交小鼠雄性生殖系也显示非独立均等分离的例子不胜枚举。A:基于二项分布的约化分离与均等分离的期望分布,并假设均等分离的概率;p = 0.5。B:2C细胞中观察到的数据,与(A)中所示的预期分布相符。C:所有来自条形码2组的非1C细胞。D:非1C细胞只有染色体分离有偏差(即R15染色体或均等或约化分离)。E:与(D)相同,但被有或无交叉的染色体数目进一步解离。
染色体水平的减数分裂交叉分布
接下来,研究者试图研究交叉事件的基因组相关性。研究者分析了1,663个拥有19,601个交叉断点的1C细胞,和240个拥有4,184个交叉断点的M2细胞,以及5,547个拥有60,755个交叉断点和115个来自(B6 × Cast)交叉的2,246个交叉断点。在哺乳动物减数分裂相关的交叉事件数量方面,这是一个前所未有的数据集。sci-L3-WGS的高通量特性使研究者能够分析大量的早期生殖细胞,并识别完成MI但未完成MII阶段的罕见细胞群,从而观察同一细胞中的减数分裂交叉和染色体错分事件。
接下来,研究者用三种方法在更小的尺度上评估了交叉的分布。首先,研究者将所有的交叉事件折叠起来,在每条染色体上生成“热度图”,并将其与减数分裂DSB地图相比较,并使用贝叶斯模型平均(BMA)来识别Spo11以外的交叉贡献特征(图6A及6B)。许多,但非全部的结果特征在两个交叉之间是一致的。例如,交叉形成的位置偏差可能会极大地影响染色体同源体之间的张力,从而导致分离(图6C和6D)。其次,在两个交叉中,研究者通过主成分分析(PCA)对78个聚集的跨界相关基因组特征进行聚类,将1C和M2细胞分成2个簇,表明细胞自主的断点模式存在差异。第三,研究者构建了一个交叉位置的预测模型,并分别在(B6 3 Spret)和(B6 3 Cast)交叉中区分真实交叉区和随机取样基因组区取得了0.73和0.85的准确率(图6E和6F)。
图6 减数分裂的交叉热点和解释性基因组特征。A:边缘包含概率(MIP)的特征与有BMA引发的交叉热点相关。B:记录断点分辨率大小的正态分布。C:M2细胞。交叉在(B6 × Cast)(左)更喜欢染色体的着丝点远端,而交叉在(B6 × Spret)(右)更偏好每个染色体臂的中心区域。
结论
在本研究中,研究者提供了sci-L3,一个结合三级单细胞组合索引和线性扩增的框架,这个方法能用于sci-L3-WGS,靶向DNA测序(sci-L3-target-seq)和基因组与转录组联合分析(sci-L3-RNA / DNA)。使用sci-L3-WGS,至少可以在2天的实验中处理数万个,甚至数百万个单细胞基因组,而构建基因库的成本仅为每10000个细胞单个细胞0.14美元,100万个细胞每个细胞0.008美元。基于线性扩增的sci-L3-WGS的通量比传统sci-L3-WGS方法高几个数量级,如in-tube LIANTI。它进一步提高了从单个细胞中回收的独特分子的数量,从低几千个或低几万个到几十万个。
研究者应用sci-L3-WGS来研究雄性小鼠的减数分裂,并发现了一个意想不到的M2细胞群体。数据的单细胞性质也使研究者能够同时描述减数分裂交叉和染色体错分。以前在对人类女性减数分裂的完整分析中观察到均等分离事件,研究者在小鼠雄性减数分裂的环境中观察到类似的事件(一条或多条染色体的均等分离)。在研究者分析的292 M2细胞(B6×Spret)交叉中,单个细胞偏向于均等或还原染色体分离,这提示了一种全局感知机制,用于决定细胞是继续减数分裂还是回到染色体的有丝分裂分离。此外,哺乳动物减数分裂的第一次,研究者观察到多个在MI期间实例的全基因组等式隔离,表明这是由单个细胞自主而不是染色体自主模式的等式隔离。研究者在两个杂交品种中都发现了这种情况,尽管在可育品种(B6 × Cast)中更少见。
全基因组等分分离的高发生率,特别是在种间(B6 × Spret)杂交中的结果,引发了更多的疑问。在正常的MI中,着丝粒在还原分离中保持着凝聚力,姐妹染色单体着丝粒在交叉点的近端直到MII才分裂。以前的工作也表明同系物配对在这些方面可能是有缺陷的,F1杂交由于PRDM9结合位点的侵蚀,而结对问题(pairing problem)在种间杂交中可能更为严重。
简单结合产量很高单细胞组合索引(sci)计划并通过转座子插入(LIANTI)技术,与线性扩增的sci-L3相比,一个关键区别在于研究者引入了T7启动子,这不仅获得了两轮以上的细胞条码,并进一步增加了通量,同时也大大降低了成本。作为第一个例子,研究者演示了sci-L3-WGS可以很容易地适应sci-L3-target-seq。尽管目前单倍型10%的回收率对靶向测序来说可能不是很理想,但可以分析的大量细胞可以缓解这一问题。作为第二个例子,研究者证明sci-L3-WGS也适用于sci-L3-RNA/DNA联合检测。研究者预计,将sci-L3应用于转座酶可达染色质的测序(ATAC-seq)、bisulfite-seq和Hi-C的单细胞染色质可达性分析、甲基化组和染色质构象分析,可能比已发表的sci方法更有优势。
更多推荐
1 科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响