单细胞入门-了解Microwell-seq&scMCA

浙大医学院郭国骥团队上个月的Cell文章Mapping the Mouse Cell Atlas by Microwell-Seq
主要有两个突破
· 开发了一种高通量低成本的scRNA-seq平台:Microwell-seq
· 绘制了囊括主要细胞类型的小鼠单细胞图谱:scMCA
这是第一篇发表的哺乳动物单细胞图谱,出来就很火,以后说起单细胞也肯定会提及,有必要详细了解一下

mark

简介
细胞的鉴别标志是用表达基因的独特组合来定义的。自从细胞被发现是生命的功能单位,研究者们试图使用不同的属性来描述细胞并分类。起初,细胞主要是通过位置、大小和成分进行区分;细胞类型的定义严重依赖于显微镜的改进。随后,免疫组织化学,荧光激活细胞分选(FACS),以及荧光原位杂交(FISH)促进了基因表达标识在细胞分类上的使用。这些技术显示,形态相似的细胞群体其实是存在异质(不均一)性的。后续研究把分子表型和细胞功能相结合,在辨别细胞类型上取得了显著的进步。但是,目前的细胞分类系统依赖于主要是偶然发现的一些标识物。标识物的选择在不同的实验室往往是不一样的,造成了结果比较的困难。跨组织的比较因为这种标识物系统充满了挑战,不同组织的首选方案可能不同。
单细胞基因表达分析的最新进展为加强细胞鉴别和分类带来了机会。新兴的一些方法,像高通量单细胞qPCR,单细胞大量细胞计数,单细胞mRNA-seq,使高分辨率的细胞异质性检测成为可能。大规模并行实验可以大大降低成本地同时分析数千个细胞的表达谱。其它的方法,像单细胞基因组分析,表观组分析,以及原位分析,可以像细胞和亚细胞定位一样,提供进一步的遗传和表观遗传的基因表达调控信息。随着持续的技术进步,人们一致认为现在是时候建设一个包含所有哺乳动物细胞类型的单细胞基因组综合数据库了。

郭国骥团队通过Microwell-seq,用来自51个小鼠组织、器官和细胞培养物的超过40w个单细胞表达谱构建了第一阶段的“小鼠细胞图谱”。生成的图谱覆盖了小鼠系统里超过800个主要细胞类型和可能超过1000个细胞亚型。整合发表的高通量单细胞数据,给科学界建立了MCA的网页数据库
http://bis.zju.edu.cn/MCA/
他们还开发了一个“单细胞MCA(scMCA)”工具,能够准确定义基于单细胞数字表达的细胞类型。
https://github.com/ggjlab/scMCA

实验
细胞制备

从6-10周大的C57BL/6小鼠身上收集了乳腺(未成熟、怀孕、哺乳和衰老各时期),子宫,膀胱,卵巢,肠,肾,肺,睾丸,胰脏,肝脏,脾脏,肌肉,胃,骨髓,胸腺,前列腺,cKit^+ 骨髓,骨髓间充质细胞,和外周血样本。收集了E14.5的胎儿肝脏,胎儿肺,胎儿胃,胎儿性腺,胎儿大脑,胎儿肠,胎儿胎盘,和除了胎儿大脑的间质组织,还有胎儿皮肤,胎儿头盖骨,胎儿肋骨,以及胎儿肌肉样本。按照优化好的流程,组织经过仔细的清洗,处理成单细胞悬液。同时使用了一些来自小鼠组织的培养细胞:3T3细胞,胚胎干细胞(ES),滋养层干细胞(TS),还有间充质干细胞(MSCs)。然后使用单细胞做Microwell-seq。

微孔设备制造&条码磁珠合成
mark

确定微孔的直径和深度后(细胞和磁珠刚好能进去),首先加工出一块带10w微孔的硅板,用作模板制作出PDMS板,PDMS板再用作模板制作出一次性的琼脂微孔板
选用表面带羧基修饰的磁珠,使用三轮的split-pool把寡核苷酸条码合成上去,并去掉互补链。合成好的磁珠可以在TE-TW缓冲液中4℃保存4周。

细胞收集和裂解

细胞和磁珠的浓度需要小心控制,用血细胞计数器预估,使得10%的微孔能有单个细胞并且每一个孔都有磁珠。吸取细胞悬液均匀分布在微孔阵列上,洗掉多余的细胞。用显微镜检查微孔板,两个细胞在一个孔的情况很少见,如果发现要用毛细管移除。然后把微孔板放在磁铁上,加入磁珠悬浮液,小心地洗掉多余磁珠。加入冷裂解液,孵育12min。收集转移清洗磁珠,最后把大约5w个磁珠放到一个1.5mL管里。

反转录&cDNA扩增

按照Smart-seq2的程序执行反转录和模板置换,直接把反转录试剂加到磁珠管里。
反转录结束后需要用外切酶处理掉没有捕获到mRNA的寡核苷酸。
磁珠分成四管分别扩增,用AMPure XP磁珠纯化cDNA文库。

转座酶片段化&选择性PCR

文库片段化使用定制的带有两段相同插入序列的转座酶。
index引物换成了自制P5引物,用来放大含3’端转录本的片段。其他片段会自连成环,结合不上引物。
AMPure XP磁珠纯化掉引物二聚体和大片段,Agilent 2100片段分析的峰值范围在400-700bp。
建好的文库用Hiseq测序。

每一条寡核苷酸包含一条引物序列,一个细胞条形码(Barcode), 一个独特的分子标识(UMI),以及多聚T尾巴。

mark
Microwell-seq方法评估
mark

每个单独的磁珠结合有10^7 到10^8 个共享一个细胞条形码的寡核苷酸。

mark

为了评估方法的保真度,使用培养的人(293T)和小鼠(3T3)细胞进行混合物种实验,鉴定出每个细胞中同时匹配到人和小鼠基因组的读长比率。

mark

Microwell-seq生产了高保真的单细胞文库,双细胞的比列不超过1.2%。通过饱和测序,平均接近6500个基因和55000条转录本可以被检测到。

mark

读长与基因数的低比值在大规模的实验中被观察到。

每个人类293T细胞的细胞周期分数通过已发表的分阶段基因和方法来计算。

不同细胞周期的细胞通过它们的细胞周期分数被清晰地分离。通过整合Cj7 mES Microwell-seq数据和不同单细胞mRNA-seq方法已发表数据的比较分析,观察到一个能与其他可用方法比较的灵敏度和准确性。从中等到低等范围的测序深度,Microwell-seq比其他的高通量单细胞mRNA-seq方法检测到更多的基因。

显著的是,Microwell-seq显示出了双极率和成本的优势。

为了说明Microwell-seq使用冷冻细胞也能稳定工作:

分析了4323个动员后人类外周血(mPB)的CD34^+ 和CD34^- 的解冻单细胞,在两个细胞群体间观察到明确的区分。

第1、2批解冻的mPB CD34^+ 细胞在一个t分布随机邻域嵌入算法(t-SNE)图中显示出很小的批次效应。

定量和统计分析
Microwell-seq 数据处理

主要用的是drop-seq核心计算工具(drop-seq core computational tool
http://mccarrolllab.com/wp-content/uploads/2016/03/Drop-seqAlignmentCookbookv1.2Jan2016.pdf
使用bbmap的bbduk2函数过滤掉没有两个linker或者没有polyT的序列。
细胞条码(barcode)和独特分子标识(UMI)随后从Read One 取出。
去掉barcode的任意碱基质量小于10的reads对,使用STAR(v2.5.2a)的默认参数比对,去掉所有多次匹配的reads,使用Gencode的GTF注释文件。
UMI计数,一个基因里一个编辑距离的分子条码合并到一个。
细胞质量质控,去掉表达量少于500条转录本的细胞。高比例的线粒体编码基因转录本计数表示低细胞质量,这些细胞也没有用于下游分析。
得到数字基因表达(DGE)数据矩阵之后,用Seurat降维、聚类和差异基因表达分析

293T细胞的细胞周期分析

用dropseq的方法做细胞周期分析,基因集合反映HeLa细胞周期的五个阶段。

跨组织比较的批次效应移除

定义了一个批次基因背景值(batch gene background value),通过移除数字表达矩阵的批次背景来改进跨组织比较的整体报告。

细胞-细胞互作网络

使用降维后的数据集,包括6w个细胞,98个细胞集群的6298个标记基因。在每个细胞类型,每一百个细胞取均值来降噪。使用pairwise Spearman correlation形成关系网络,取r>0.75有意义,使用Cytoscape可视化。

细胞类型分析

每个细胞类型,选择重要的差异基因(ave_diff>1),使用靠前的差异表达标识,把亚型数据与其他已发表文章的数据比较。用R的circlize显示结果。

单细胞轨迹分析

使用p-Creode实现胎盘和cKit+骨髓细胞的发育轨迹分析。

胎盘的造血细胞和内皮细胞,移除低质量数据(< 500 genes/cell)后,基于每个集群的前20个差异表达标识基因构建非监督发育轨迹(noise = 10 ,target = 30)。cKit+骨髓,根据细胞量,每个集群随机选取200个基因数高于中位数的细胞构建非监督发育轨迹 (noise = 12, target = 50),使用前20个标识基因分析。

单细胞MCA分析

为了构建一个scMCA参考文件,把每个细胞标准化成100k条转录本。对于每个细胞类型集群,随机选取100个单细胞,计算平均表达,DGE数取整。每个细胞集群,构建三次细胞类型转录组平均数据,得到894个主要的细胞类型。执行每个细胞类型与所有其他细胞的差异表达分析,选取前10个标识基因(log-fold change > 1)。把每个细胞类型的标识合并成组合功能基因列表(combined feature gene list),用来计算给定单细胞数据与每一个MCA参考细胞类型的相关系数。scMCA分析之前,log化单细胞的FPKM、RPKM和TPM的DGE矩阵。

scMCA,scmap 和randomForest的比较

为了比较不同匹配方法的特点,计算它们的自投影精确度(accuracy of self-projections)。使用这三个R包构建参考文件,执行细胞类型匹配分析。

基于MCA的五个数据集,包括男性胎儿性腺、胰腺、脾脏、造血干细胞和植入前胚胎数据,每个数据集随机选取80%的细胞构建训练模型,拿去匹配剩下的20%细胞,重复三次。移除未匹配的细胞,结果转化成混合矩阵,使用R包caret计算精确度。

这篇文章的
原始数据文件 GEO: GSE108097
数字表达矩阵 https://figshare.com/s/865e694ad06d5857db4b


刷了一两个月文献,单细胞差不多入门了,而掌握具体的分析方法,还缺乏对实际数据、工具的熟悉,需要实战

(0)

相关推荐