科研 | 国人一区作品:基于微滴的超高通量单细胞RNA-Seq系统的比较分析(IF=14.548)

编译:橙子,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

导读

自2009年问世以来,单细胞RNA测序一直推动生物医学研究的进步,特别是发育生物学和干细胞研究。而且多个超高通量单细胞RNA-seq系统引起了人们的关注,但尚未对这些单细胞RNA-seq系统进行系统的比较分析。在此,本文学者使用相同的细胞系和生物信息学分析方法对三大基于微滴技术的超高通量单细胞RNA测序系统----inDrop,Drop-seq和10X Genomics Chromium进行比较分析,重点关注每个系统的显着特征和合适的应用方向。

论文ID

原名:Comparative Analysis of Droplet-Based Ultra-HighThroughput Single-Cell RNA-Seq Systems
译名:基于微滴的超高通量单细胞RNA-Seq系统的比较分析
期刊:Molecular Cell
IF:14.548(一区)
发表时间:2019年1月3日
通讯作者:王建斌、黄岩谊
通讯作者单位:清华大学、北京大学
DOI号:10.1016/j.molcel.2018.10.020

简介

目前,有三种广泛应用的基于微滴的高通量scRNA-seq系统,即inDrop,Drop-seq和10X Genomics。每个微滴都有一个纳升的体积,以适应单细胞反应。微流体管道布局非常简单,主要由微通道引入或收集试剂和样品组成,在一次运行中,微滴可以实现快速的分隔和封装,其频率可达每秒数十万液滴,并且很容易规模化生产。

图1 微流体设计

inDrop,Drop-seq和10X Genomics原理

图2  InDrop,Drop-seq和10X Genomics RNA-seq系统

相同点:

inDrop,Drop-seq和10X Genomics使用相似的原理产生微滴,且磁珠引物具有相同的结构,包括PCR柄、细胞条形码、特异性分子标记(UMI)和poly-T。

差异点:

①inDrop系统磁珠引物包含光裂解序列和T7启动子。

②磁珠材料:10X和inDrop系统使用的磁珠是水凝胶制成的,Drop-seq使用的是脆性树脂。

③10 X Genomics磁珠和inDrop磁珠可以固定整个珠子的引物,而Drop-seq磁珠只能在表面携带引物。

④通常,微滴和细胞以低浓度引入,以减少形成双重态的机会;也就是说,两个细胞或两个珠子被封装在一个微滴中。包封后,10X Genomics整粒磁珠溶解,将所有的引物释放到溶液中,提高mRNA的捕获效率。inDrop通过uv照射,通过裂解来激活引物。Drop-seq使用表面连接的引物来捕获mRNA分子。

⑤反转录位点:10X Genomics和inDrop是在微滴内进行,相反,Drop-seq只捕获转录本,没有进行反转录。

⑥cDNA扩增方式:inDrop使用CEL-seq,而10X Genomics和Drop-seq遵循template-switching,类似于流行的Smart-seq。

⑦文库制备时间:inDrop的微滴外转录,文库制备时间延长至24小时以上,而Drop-seq和10X Genomics均可在一天内完成。

结果

微流体设计

学者使用淋巴母细胞系GM12891,每种方法2-3个重复,平均测序深度约为50000。分析比较细胞捕获效率、有效读取比例、细胞条形码错误率和转录本检测灵敏度。

图3 实验设计

数据处理方法

每个系统都有自己的数据处理方法。但是,由于测序序列的结构差异,不同系统数据处理方法不能直接处理其他系统生成的数据。此外,分析方法在一些关键过程中使用不同的策略,如基因标记。所有这些差异可能会导致基因定量的偏好性,为了解决这个问题,学者开发了可适用于三个分析平台的生物信息分析方法(https://github.com/beiseq/baseqDrops),生成统一可用的UMI技术的数据矩阵。

图4 数据处理方法

文库大小及质量评估

文库大小决定了scRNA-seq单个实验运行的最大容量。三个系统理论文库大小为1.47*105(inDrop), 1.6*107(Drop-seq)和7.34*105(10X)。但是,有效的实际文库大小可能小于理论值。通过分析每个系统的多次运行之间的文库大小差异来估算有效文库的比例。其中inDrop,比例约为30%,Drop-seq约为10%,10X约为40%,但是这种分析方法不适合较大文库。粗略估计有效文库大小inDrop为5*104,Drop-seq至少有1*106,10X为3*105(图5A)。

同一磁珠同一条形码是这三个系统的关键,然而,由于DNA合成化学的不完善,差异碱基添加是不可避免的,因此,同一磁珠内的条形码序列可能不一致。这种错误的存在将导致检测到的单细胞数量剧增,这需要仔细校正。对于每个有效的条形码,校正后的读码率(包含原始条形码序列中的错误)占校正后总读码率的比例被计算为条形码错误率,它反映了磁珠DNA引物的总体质量。10X磁珠条形码中差异碱基少,在其他两个系统中,超过一半条形码包含明显的差异碱基。具体来说,大约10%的Drop-seq磁珠条形码中含有一个碱基缺失,这也需要在数据分析时格外小心(图5B)。

学者进一步分析了UMI的碱基组成,可以反映其合成和使用偏好性。因为poly-T对mRNA的poly-A的亲和力,所有的系统都表现出对poly-T的偏好性。学者还在inDrop中发现了polyC的富集,在Drop-seq和10X中发现了poly-G的富集(图5 C)。

有效条形码的主要过滤标准是基于原始reads的总数量,这在很大程度上反映了原始细胞mRNA的丰度。对于10X,曲线陡然下降表示健康细胞和其他细胞的read计数有明显的差异;inDrop有一个类似的现象,但较为平缓;然而,对于Drop-seq,在read计数曲线上没有明显的变化。这可能与三大系统磁珠材料及制作有关(图5 D)。

图5 文库大小及质量评估

数据处理流程和结果

每个有效的条形码reads首先与人类基因组比对,分析整个reads在基因组的分布情况(图6A)。Drop-seq和10X有大约65%的reads比对到UTR(主要是3’UTR)和外显子区域,在inDrop只是大约45%。对比对到基因区的reads进行标记,就可以获取到检测基因的数目(图6B)。利用检测到的基因又可以佐证reads的偏好性(图6C)。三大系统的reads主要来自mRNA的3'端,与它们的文库构建方法一致。Drop-seq数据呈双峰分布,可能是由于cDNA分子两端使用了相同的PCR锚定序列。

学者根据总UMIs(转录本)来对条形码进行过滤 (图6D)。UMI阈值为1000,大多数条形码满足条件,这表明估计的细胞数量是合理的。为了进一步排除由条形码错误引起的,学者检查了相似条形码之间转录本的表达谱。如果条形码的表达谱与其邻近条形码有明显的不同,就丢弃这个条形码(图6E)。通过这些步骤,在每个实验中获得了不同数量的细胞(图6F)。10X有效reads的比例为75%,inDrop 为25%,Drop-seq 为30% (图6 G)。

图6 数据处理流程和结果

基因检测和UMI灵敏度

基因检测的灵敏度是决定scRNA-seq的基本指标。它反映了捕获单个mRNA分子,进行逆转录、第二链合成和预扩增方法的总体效率,进一步影响和决定了基因表达定量的准确性。使用相同的细胞系,可以简单地用UMIs和基因数目估算灵敏度(图7A)。随着reads的增加,条形码的UMI和基因数量逐渐饱和。学者发现,对UMI 数据进行log值转换后于检测到的基因数目相关性较高,说明测序深度可能会影响UMIs的数量和检测到的基因数目。10X灵敏度最高,可在3000个基因中平均捕获17000个转录组;Drot-seq检测到2500个基因的8000个转录组;InDrop可检测到1250个基因的2700个转录组(图7B)。

技术噪音及准确性

技术噪音反映了实验随机性带来的变异,包括逆转录时转录本的丢失和PCR扩增的偏好性。准确性可以通过技术重复之间转录组的一致性来评估。单细胞RNA-seq的一个主要目的是根据基因表达谱将细胞聚类成不同的亚群,通常用于发现和表征新的细胞类型或状态。较大的技术噪音会扭曲细胞间细微的生物差异,从而降低细胞分组的分辨率。为了降低技术噪声,人们做了很多努力。

虽然本文使用同质细胞系,但仍然存在固有的生物噪音。本文假设生物噪音在样本之间是一致的,而技术噪声主导着数据集的变异。管家基因(生物噪音最低)和其他基因的噪音水平分布相似,表明生物噪声与技术噪声相比处于较低水平,因此,总变化量应反映技术噪音水平。

为了验证UMIs在降低PCR扩增噪音方面的效果,学者使用UMI计数和raw reads计数进行分析,以量化基因的表达,结果表明,10X和Drop-seq的技术噪声水平低于inDrop(图7C)。在这三种系统中,利用UMI来预估基因表达谱可以降低技术噪声,证实了UMI在降低噪音方面的有效性。而且测序深度加深,使用UMI可能会进一步降低噪音。还可以利用UMI的变异系数来预估基因水平上的技术噪音(图7D)。一般来说,10X Genomics平台的噪音最少,然后是Drop-seq和inDrop。

图 7 灵敏度和技术噪音

低测序深度下的灵敏度和精确度

通过加大测序深度可以检测到低表达转录本。然而,在多样本实验中,有成本和灵敏度之间的权衡。从经验上讲,高通量scRNA-seq实验中,单个细胞可以获取1万到10万条reads,而对于常规的scRNA-seq,单个细胞可以获取1亿条reads。前期研究表明,低深度测序(常规深度的1%)也可以提供细胞状态的信息。本文对测序数据进行随机采样,分析其灵敏度和精度的变化(图8A,B)。UMI和基因数目拟合曲线有助于确定大多数适合应用的测序深度。对于更敏感检测的方法,可以用更少的reads检测相同水平的UMIs表示。reads数少于10K时,三大系统都可以达到1000个UMIs阈值。

除了灵敏度外,精确度还决定了系统的分辨率,也表明技术噪音的水平。发现三大系统的精度都随着读深度(>20000有效reads)的增加而迅速饱和(图8C)。

图8 低测序深度下的灵敏度和精确度

基因定量偏好性

为了全面比较不同系统所获取的转录本,学者利用PCA和tSNE进行降维分析(图9A)。几乎所有的细胞都根据其来源被分离和聚集。虽然同一次运行的细胞内存在生物和技术上的变异,导致测序reads、基因和UMI的差异性,但不同系统之间的偏好性仍然超过了这些变异水平。由于重复是按不同的批次和天数进行处理的,因此批处理影响也不明显。在同一系统中,不同批次的数据呈现出非常均匀的分布。

细胞分散聚类表明在基因水平上存在系统特异性定量偏差,可能与三个主要因素有关:表达丰度(归一化为UMIs / million);基因长度GC含量。因此,学者从每种方法中选择前100个标记基因,分析这些因素的影响(图9B-9D)。发现10X略倾向于较短的基因和GC含量较高的基因,而Drop-seq能更好地检测到GC含量较低的基因。

总之,所有的方法在不同批次的技术重复中显得非常一致,说明用同一方法组合不同数据集的有效性。然而,不同的研究方法在基因长度和GC含量方面存在明显的偏好性。

图9 基因定量的偏好性

讨论

为了减少实验设计和数据分析中的偏差,学者使用统一的细胞系和数据处理方法,比较了inDrop、Dropseq和10X单细胞RNA-seq系统。对于每个系统,进行数千个单细胞测序,使用统一的数据处理方法对几个关键参数进行定量分析,明确了各个系统的特点。在排除人为因素和系统技术噪音之后,这三个系统都会生成用于单细胞表达谱分析的有效数据。细胞分型显示分析不具有批量效应,但明显的聚类偏好性与选择的系统相关。这表明在技术上使用来自不同系统的数据集进行分析具有挑战性,应该避免。

在本研究中,学者选择了质量高度可控的淋巴母细胞系进行分析,希望在技术评价方面尽量减少样品质量对所得结果的影响,然而,使用原代细胞,特别是那些mRNA含量低的细胞,将更有意义。为了扩大研究范围,学者使用10X系统对HEK293细胞系进行分析,并加入了三个系统原始开发者制作的一些数据集,结果显示10X具有更高的灵敏度,从各种细胞中检测到的UMIs大约是inDrop和Drop-seq的两倍,inDrop结果比学者的要好,学者认为这种差异是由于不同批次生产的磁珠造成的。

三大系统磁珠都是由特定的制造商专属制作,可能很难在小型实验室中生产。因此,磁珠质量对于逆转录和进一步反应的稳健性和均一性尤为重要。此外,每个磁珠上的条形码序列的保真度和纯度也是影响生物信息学的关键因素,应尽量减少人为因素。

本文比较研究表明,10X系统一般具有较高的灵敏度和精度,技术噪音较小。10X系统作为一个较为成熟的商业化系统,应该进行广泛的优化,在一定程度上体现在制造磁珠的材料及条码设计和质量控制上。与10X相比,Drop-seq在灵敏度和精度上有所下降,但实验成本上有很大的优势。自2015年推出以来,Drop-seq广受欢迎,构建整个系统的成本不到3万美元。Drop-seq的实验成本约为每个cell 0.10美元,因此,Drop-seq对于个体实验室来说是一个合理的选择。

在某种程度上,inDrop可以被认为是10X系统的开源版本。它们都使用水凝胶磁珠,磁珠上的引物都是可释放的,以方便捕获转录本,仪器成本与10X系统相当,但每个细胞的成本大约是10X的一半。学者将inDrop的低性能归因于其过量的cDNA扩增,以及系统尚未完全优化。作为一个开源系统,inDrop可以采用其他化学方法针对不同类型的RNA-seq进行更改。inDrop具有良好的灵活性,能够满足用户的需求,系统可用于非标准方法或技术开发。

结论

根据三大系统的特性,文章提出了一个指导方针,以便为超高通量单细胞研究选择合适的基于微滴的scRNA-seq系统。一般来说,这三种系统都能获取较好的转录本检测效率,而且效率越高,实验成本越高。根据经验,10X系统目前是大多数研究的选择。当样本充足时,Drop-seq的成本更高。相反,当检测低丰度转录本,或者需要自定义时,inDrop会是更好的选择。


更多推荐

1Theranostics | 日本大阪大学:一种用于单细胞荧光颗粒酶B测定分析的微流控平台 (1区 IF=8.063)

Small | 国人高分综述:微流控单细胞组学分析(一区,IF=10.856)

(0)

相关推荐