质量较差样本的QC
回顾
单细胞RNA-seq分析介绍
单细胞RNA-seq的设计和方法
从原始数据到计数矩阵
差异分析前的准备工作
scRNA-seq——读入数据详解
scRNA-seq——质量控制
Cell counts
细胞计数由检测到的唯一细胞条形码的数量确定。在基于液滴的实验方案中,细胞条形码存在于水凝胶中,并与单个细胞和裂解/反应混合物一起包裹在液滴中。虽然每个水凝胶都应该有一个与之相关的细胞条形码,但有时一个水凝胶可以有多个细胞条形码。从而导致细胞中的细胞条形码数量更多。
由于某些水凝胶具有多个细胞条形码,所以期望中唯一的细胞条形码的数量通常会大于seuqenced的细胞的数量。下面的黄色样本的细胞条形码数量似乎至少是其他样本的两倍。
UMI counts per cell
对于Unsorted的样品(黄色),每个细胞的UMI数量往往非常低。其他样本每个细胞的UMI数量都很多,这表明只有Unsorted的样本有问题。使用此截止值,我们将丢失大部分Unsorted cells。
Genes detected per cell
在InDrop/10X分析中,发现基因检测在500-5000范围内是正常的。然而,根据实验中细胞的复杂性,期望可能会有所不同。对基因检测的期望值与对UMI检测的期望值情况相似。
除Unsorted的样本外,所有样本都检测到大量的基因(中位数在1,000-3,000个基因之间),这与每个样本的每个细胞的UMI数量相对应。然而,Unsorted的样本每个细胞的基因中位数非常低,这表明样本失败。
UMIs vs. genes detected
质量差的细胞很可能每个细胞的基因和UMI都很低。因此,较差的样本的细胞很可能在图形的左下角。好的细胞通常会表现为每个细胞有更多的基因和更高数量的UMI。我们也希望所有样品都有相似的斜率。
Unsorted的样本中有很多细胞是,只有很少的UMIs,并且每个细胞的基因数量较少。其他样品看起来都没问题。
Mitochondrial counts ratio
线粒体计数的质量较差的样品将在0.1线粒体比率标记之上出现较大的峰,除非是实验样品本身就是高线粒体比率类型。
未分类样品中检测到的基因数量非常少,因此线粒体表达似乎较高,主要是由于这一事实。未分类样品的质量差似乎不是由于细胞死亡或垂死。由于预计hPSC样品的线粒体表达水平较高,因此建议不要对该标准使用阈值。
在Unsorted的样本中检测到的基因数量非常少,因此线粒体的表达似乎更高。未分选样本的质量差似乎不是由于死亡或濒临死亡的细胞造成的。尽管hPSC样本比Sorted样本多一点,但其他样本的线粒体表达却很少。由于预期hPSC样本的细胞类型具有更高水平的线粒体表达,因此不使用该指标的阈值可能是明智的。
Novelty
我们可以看到,我们对每个细胞测序较少的样本具有更高的整体复杂性,这是因为我们还没有开始对这些样本的任何给定基因进行饱和测序。这些样本中的异常值细胞可能是RNA种类比其他细胞简单的细胞。有时,我们可以通过此指标检测低复杂度的细胞类型(如红细胞)的污染。
除未排序的样本外,所有样本的复杂度都很好,因此这些样本中不太可能存在低复杂度的细胞类型的污染。未分类的样本的肩部比预期的大,但按此指标还不错。
除了Unsorted样本外,所有样本的复杂性看起来都很好,因此在这些样本中不太可能存在低复杂性细胞类型的污染。Unsorted的样本具有比预期更大的shoulder ,但按此指标并不算差。
筛选结果
确定过滤标准成功与否的一个主要图表是细胞计数。预期的细胞数量取决于文库制备方法,对于inDrops,我们看到每个样本大约能测到上样细胞的80%或更少,而对于10X,这通常是~50%或更少。
此外,最好为过滤后的数据探索所有质量图。所有的图都应该在每个细胞的读数、检测到的基因、每个细胞的UMI、线粒体比率和novelty方面都有很大的改进。
由于Unsorted
样品质量较差,因此过滤器会除去该样品的大量细胞。在这种情况下,除1个细胞外的所有细胞都被过滤掉了。
注:以上内容来自哈佛大学生物信息中心(HBC)_的教学团队的生物信息学培训课程。原文链接:https://hbctraining.github.io/scRNA-seq/schedule/