仅3个单细胞测序样本怎么撑起6分的文章?
导语
今天和大家分享的是2020年1月份发表在SCIENTIFIC DATA杂志上的一篇文章(IF=5.929)“Single-cell RNA sequencing of human kidney”。文章中作者根据三个人类供体肾脏的23,366个高质量细胞的scRNA-seq数据,并将其分成10个簇,近端肾小管(PT)细胞被分为三种亚型,而导管细胞则被分为两种亚型,提供了较为全面的人肾脏细胞的转录图谱。
Single-cell RNA sequencing of human kidney
人类肾脏的单细胞RNA测序
一、研究背景
肾小球和肾小管是肾脏的重要组成部分。它们结构的功能复杂性与不同的细胞类型有关。壁上皮细胞(PEC)是一种常见的肾小球细胞类型,可能导致肾小球硬化,新月体形成。某些肾脏疾病可能是细胞类型特异性的,如慢性肾病(CKD)与PT细胞相关,引起了广泛的关注。然而,在上述研究中获得的PT细胞的数量相对较少,故很难对PT细胞的亚群进行分类。本研究作者希望对肾脏PT细胞进行再分类,深入研究相关基因的表达概况。
二、研究思路
三、结果解读
1.获取肾脏样本的scRNA-seq
图1.探讨scRNA-seq肾脏细胞亚群的组成
作者从三个供体(肾脏1、2和3)(包括20,308个PT细胞)获得了23,366个高质量人肾细胞的单细胞转录组数据集。考虑到PT细胞在肾脏疾病中的重要作用,这一可观的单个细胞转录组信息可以验证先前报道的肾脏疾病易感基因。此外,通过全基因组关联研究(GWAS)鉴定的单基因疾病基因和复杂性状基因可能与精确的细胞类型相关获取样品单细胞测序的整个过程包括采集人肾组织,制备单细胞悬液和进行10倍基因组学样品处理。
2. 单细胞RNA-seq的详细信息和初步结果
使用Hiseq Xten对样品进行测序,初步测序结果(bcl文件)已通过CellRanger转换为FASTQ文件。通过将条形码和唯一分子识别符(UMI)的末端修整为26 bp,并将mRNA末端修整为98 bp,从而遵循10x Genomics标准seq协议。
表1. FASTQ文件的详细质量控制
然后将FASTQ文件与人类基因组参考序列GRCh38进行比对。随后将CellRanger应用于初步数据分析,并生成了一个包含条形码表,基因表和基因表达矩阵的文件。我们对FASTQ文件进行了初步的质量控制(QC),以确保高质量的scRNA-seq数据。还对三种不同的方法进行了比较,发现与Cellranger V2.0或2.1相比,使用Cellranger V3.0实际上可以识别出更多的单细胞。同时获得了有关测序的一些基本信息,例如细胞数,检测到的基因的中位数,测序饱和度和测序深度。使用CellRanger V3.0并将FASTQ数据修整为26 bp×98 bp的策略用于预处理scRNA-seq数据并进行下游分析。
表2.三种样品的信息和测序统计数据以及不同测序策略之间的比较
3、使用Seurat进行
质量控制(QC)减轻批次效应
使用MergeSeurat函数合并了三个肾脏数据集,细胞的过滤器标准被参照先前的研究之后确定。根据肾脏样本中基因的中位数和线粒体基因的百分比,过滤具有<200和> 2,500个基因且线粒体基因百分比> 30%的细胞。进行质量控制后,获得了23,366个高质量的肾细胞。检测并显现线粒体基因的百分比与mRNA读数之间的关系,以及mRNA的数量与mRNA读数之间的关系。
图2.进行人肾单细胞数据的质量控制(QC)
数据归一化后,在控制平均表达与分散之间的关系后,鉴定出单细胞中所有高度可变的基因。所有可变基因(n = 16471)都用于下游分析。
由于此数据来自三个不同的样本,为了避免批次效应影响下游分析,采用了一种缓解批次效应的策略。R包Harmony专注scRNA-seq数据的可扩展集成,以进行批处理校正和元分析。为了确保Harmony的可靠性,还应用了基于(MNN的另一种方法,该方法在R包scran 中实现“ fastMNN”功能。发现这两种消除批次效应的方法产生了相似的结果。但是的数据而言,Harmony可能比fastMNN稍好。Harmony识别出具有相同降低分辨率的收集导管插层细胞,但fastMNN不能。因此使用Harmony消除批次效应并继续进行下游分析。
图3.比较fastMNN和消除批次效应
随后使用具有可变基因的PCA作为输入,并基于jackStraw函数确定了重要的主成分。当统计意义显着时,选择20台PC作为统一流形近似和UMAP和t分布随机相邻嵌入(tSNE)。检测了三个不同肾脏样品之间的批量效应,分辨率为0.25,通过FindClusters函数将细胞聚类,并分为10种不同的细胞类型。
图4.通过tSNE可视化细胞群
接下来,使用FindAllMarkers函数在每种类型的细胞之间查找差异表达的基因:
表3.人类肾细胞簇的差异表达基因DEG
4、细胞周期分析
通过使用Seurat程序进行细胞周期分析,使用了先前定义的43 G1 / S和54 G2 / M细胞周期基因20的核心集。通过这两个基因组中的最大平均表达(“周期得分”)对细胞进行分类。当G1 / S和G2 / M的循环得分均小于2时,认为这些细胞是非循环的,否则细胞是增殖性的。细胞周期分析后,未观察到细胞周期基因诱导的偏倚(图2d)。并基于在以前的研究中报告的标记基因进行细胞类型分为1-10类,分别对应于近曲小管细胞,近端小管细胞,近端直小管细胞,NK-T细胞,单核细胞,肾小球顶上皮细胞,远端小管细胞,集合管主要细胞,B细胞和集合管插入细胞。
表4.细胞类型分配
5、通过Monocle2重建PT细胞分化轨迹
PT细胞的命运决定和伪时间轨迹通过Monocle2 24 R软件包。首先,Seurat选择了三种类型的PT细胞。将包括20,308个PT细胞的PT细胞数据导入到Monocle2中。使用了在至少10个细胞中和大于5%的细胞中表达的基因,随后使用关于单元格局部密度(rho)和最近距离(delta)的阈值来确定簇的数量。然后像以前一样对所有细胞簇进行差异基因表达分析。使用了前1,000个最显着差异表达的基因作为排序基因的集合,并进行了尺寸缩减和轨迹分析。建立轨迹后,使用差分GeneTest函数来查找具有根据伪时间而变化的表达模式的基因。
6、其它类型细胞的验证分析
肾脏标本被新鲜采集,解剖并消化成来自57至65岁的器官捐献者(两名男性和一名女性)的单细胞:
表5.三个不同患者的信息
使用Seurat进行QC,其中计算了每个细胞中的基因数量,UMI数量和线粒体基因的百分比。与来自GSE107585 1的先前肾脏单细胞数据的每个细胞检测到的基因数量进行比较发现每个细胞的基因中位数为941。此结果与scRNA-seq结果接近。通常,肾细胞中线粒体基因的比例高于其他器官,例如肝脏,前列腺,睾丸和外周血单核细胞(PBMC)。由于线粒体基因的比例反映了细胞的状态,因此排除标准存在争议。一些研究人员建议,如果肾细胞的线粒体基因百分比超过50% ,则应丢弃肾细胞,而其他研究人员则删除任何来自线粒体基因的表达大于20%的细胞。在这项研究中作者很保守,因为线粒体基因百分比> 30%的细胞被过滤掉了。
图5.本研究与先前研究肾脏scRNA-seq数据比较
进行质控后,进一步分析了23,366个高质量的肾细胞。可以确定10个细胞簇,每个簇由79-11,539个细胞的细胞组成。使用两种不同的方法(UMAP和tSNE)可视化细胞聚类,结果是相同的。结果表明PT细胞非常丰富,有20,308 PT细胞。PT细胞可根据其标记物分为三个不同的簇,包括近曲小管,近直小管和无准确分类的PT细胞。此外应用Monocle2对所有PT细胞执行伪时间轨迹,并显示了它们之间的分化关系。发现影响分化决定的前六个基因,前50个基因如下(图6g):
图6.PT细胞亚群并重建PT细胞的发育轨迹
最初,收集管被描述为仅在水的再吸收中起作用,现在对收集管功能的了解到其作用已增强,并导致了肾小管远端结合盐的新模型:和水重吸收,钾稳态和酸碱状态。数据还提供了收集导管细胞的转录组信息。根据标记表达,将收集的导管细胞分为主要细胞(第8组)和插层细胞(第10组)。
图7.对scRNA-seq收集的导管细胞和NK-T细胞进行详细分类
鉴于从肾脏癌患者中收集了三个“健康”的肾脏样本,必须确认它们的普遍代表性。先前对人肾脏scRNA-seq 12的研究提供了近端,远端和收集小管细胞的许多标记基因。发现PT细胞的几乎所有基因都在我们的PT细胞中高度表达。这些用于远端和收集肾小管细胞的基因大多数在我们的数据中表达。因此认为这些结果是可靠的。
最后提出了一种对细胞亚群进行详细分类的方法。最初,选择20台PC和0.25分辨率的参数来识别10种细胞类型。我们发现4个NK细胞和T细胞的高表达标记基因,被称为NK-T细胞。聚类4可以进一步分为两个子类型,通过修改参数至20的PC和0.8的分辨率,可以准确区分NKT细胞(CD3D + CD3E + GNLY + NKG7 +)和T细胞(CD3D + CD3E + IL7R+),用于下游分析。
四、小结
文章中作者首先通过Seurat包对三个正常肾脏样本的scRNA-seq数据进行质量控制,通过Harmony包用于减少批次效应并进行细胞分类,用Monocle2包对PT细胞进行细胞轨迹分析,进行不同类型细胞的验证,证明所得的scRNA数据提供了人肾脏细胞的转录组图谱,有助于我们研究肾细胞生物学以及细胞类型与疾病之间的关系。