仅3个单细胞测序样本纯分析也发6分!
Single-cell RNA sequencing of human kidney
人肾脏的单细胞测序
一. 研究背景
肾脏是在结构和功能高度复杂的器官,而其结构和功能的复杂性与其众多的细胞类型相关。其中肾近端小管细胞(proximal tubular cells,PT cells)在调节全身水钠,酸碱平衡中起着重要作用。随着单细胞测序技术(scRNA-seq)的成熟,对肾脏的单细胞测序研究大量涌现,然而这些研究样本中PT细胞的数量相对过少而且针对某种特定疾病,难以对PT细胞再进行分类。故本文作者希望通过对健康人肾脏细胞进行单细胞测序分析,从单细胞转录组信息对肾脏细胞尤其是PT细胞再分类,并深入研究相关基因表达情况。
二. 研究思路
三. 结果解读
1. 获取样本进行单细胞测序
作者使用的肾组织样本来自三个正常人 ,组织经过前期处理后使用10X Genomics捕获肾脏单细胞,再建库扩增后使用Hiseq Xten进行测序。得到了三个肾脏样本中25404个人肾细胞的转录组数据用于下游分析。
2. 使用Seurat包对scRNA-seq数据进行质量控制,消除批次效应
图1. 对初始scRNA-seq数据进行质量控制
A:将三个样本的scRNA-seq数据整合后,检测到的基因数<200和>2500的细胞被过滤,同时线粒体基因占比>30%的细胞也被过滤(因为理论上占比应该很小)。经过质量控制后,得到了23366个高质量的肾细胞转录组数据。图A中从左到右分别是每个细胞检测到的基因数,每个细胞检测到的count数之和以及测到的线粒体基因所占的比例
B:三个样本的细胞中线粒体基因所占百分比与mRNA读数间的关系(r=-0.08),以及测到的基因数与测到的RNA表达量间的关系(r=0.95)
C:为了避免不同样本间批次效应(Batch effect,这里指不同样本间存在的差异)对后续分析的影响,作者使用Harmony包处理scRNA-seq数据,矫正了了样本间的批次效应后,用UMAP法分别将三个样本的scRNA-seq数据降维。可以看到三个样本的细胞在降维后分布类似,批次效应几乎不存在
D:为了排除细胞因处于不同细胞周期带来的基因表达量的差异,作者根据细胞中G1/S期(43个基因)和G2/M期(54个基因)标致基因的最大平均表达量对细胞进行分类,并给细胞上色。可以看到在每个区域中,三个时期的细胞随机分布,并无细胞周期基因表达带来的差异
E:利用GSE107585的肾脏scRNA-seq数据对每个细胞检测到的基因数量进行了比较,结果与作者自己的scRNA-seq数据结果接近
3. 对细胞聚类可视化以及标记细胞类型
图2. scRNA-seq揭露肾脏细胞群体的组成
C:以细胞中表达量高度变化的基因作为输入,进行主成分分析,随后选择20个主成分将所有细胞分成了10类(分类函数Findcluster()内参数resolution=0.25)。每类细胞所占的比例如图C所示,每类细胞中的细胞数在79-11539之间
B:作者使用UMAP法可视化细胞类别,在找到每类细胞中于其它类别细胞的差异表达基因后,作者根据文献中已有的肾脏各类细胞的特征基因将各类细胞注释。1-10分别对应近曲小管细胞,近端小管细胞,近端直小管细胞,NK-T细胞,单核细胞,肾小球顶上皮细胞,远端小管细胞,收集管主细胞,B细胞和收集管插入细胞。类别1,2和3对应的细胞即为PT细胞,可以看到PT细胞被分为了三类
D:热图展示每类细胞中特征基因的表达情况,并依据此识别细胞种类
4. 利用Monocle2包对PT细胞进行细胞轨迹分析
图3. 针对PT细胞的细胞轨迹分析
A:作者用小提琴图展示了6种PT细胞特征基因在三类PT细胞中的表达情况,cluster1-3分别对应近曲小管细胞,近端小管细胞和近端直小管细胞
B-E:作者利用Monocle2对PT细胞进行细胞轨迹分析(n=20308),B-E分别是三种PT细胞的轨迹分布,总体伪时间状态,三种状态分布以及三个样本的细胞分布
F:线图展示对PT细胞分化影响最大的前6个基因,横坐标是拟时间,纵坐标是相对表达量,三种颜色表示图D中的三种细胞状态。可以看到除了GADD45A的的表达量随拟时间推进下降,其它5个基因的表达量随拟时间的推进二上升
G:热图展示了对PT细胞分化影响最大的前50个基因在细胞中表达情况,有相似表达模式的基因被聚类,cluster1,2,3(蓝绿红)分别表示在分化起始阶段,转化阶段,最终阶段高表达的基因
5. 对其它类型细胞的验证分析
图4. 对其它几类细胞的验证
A:图2.B中的第8(collecting duct principal cells)和第10类(collecting duct intercalated cells)细胞是肾脏集合管细胞,图A用小提琴图展示了4种集合管细胞标志基因在第8和第10类细胞中表达量
B:依旧选前20个主成分进行分类,但将分类函数中参数resolution值改为0.8后,第4类细胞(NK-T细胞)可以被再分为NK细胞和T细胞
C-G:小提琴图展示5种淋巴细胞特征基因的表达情况,据此可以区分NK(CD3D + CD3E + GNLY + NKG7 +)细胞和T细胞(CD3D + CD3E + IL7R+)
此外,作者对其它类型的细胞中特征基因的表达量进行了验证,发现文献中指出的各类细胞的特征基因在自己分类的细胞中几乎都高表达,故认为本文的肾脏scRNA-seq结果是可靠的
最后我们来总结一下,本文作者的目的便是提供人类肾脏细胞的转录组图谱。作者先用Seurat包对三个正常肾脏样本的scRNA-seq数据进行质量控制,Harmony包用于减少批次效应,排除细胞周期基因带来的影响。之后对细胞进行分类,根据每类细胞的标志基因表达情况将其注释到每种类型的肾脏细胞。重点用Monocle2包对PT细胞进行了细胞轨迹分析,其次是每种类型细胞的验证。最后得出结论,即本文所得的scRNA数据提供了人肾脏细胞的转录组图谱。本文scRNA-seq数据分析流程值得我们学习。