ENCORE 单细胞聚类新算法
文章信息
文献标题:Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data
发表时间:2020.12.10
发表杂志:Nucleic Acids Research(IF=11.501)
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236
摘要
单细胞RNA测序能够使我们在单细胞层面通过细胞类型鉴定的算法认识细胞的异质性。然而,单细胞测序数据中含有的噪声,会对细胞聚类、差异分析以及可视化造成严重的影响。作者提出运用基于特征的表达密度谱的算法ENCORE,进而区分有效特征和噪声。这种算法能实现较好的聚类效果,并能对12个标准数据集形成高分辨率的可视化效果。更重要的是,ENCORE能够对每一个群识别具有生物学意义的差异基因。
引言
单细胞RNA测序能够使研究者获得单个细胞的转录组信息,极大地拓展了我们对生命系统的认识。为了能更好地利用单细胞测序数据,开发与细胞聚类、降维可视化、特征基因识别相关的具有高精度和高分辨率的算法是非常必要的。聚类分析算法通常由归一化、特征提取、降维、距离计算、聚类、差异基因分析等步骤组成,在近几年发展迅速,并对单细胞测序结果的分析产生很大的影响。主要的几种聚类算法,例如Seurat、SIMLR和pcaReduce,在更新的过程中,不断改善聚类、距离计算、降维等方面的效果。但对于特征提取这一关键步骤,这几种算法的效果均不是很好。
高维的单细胞RNA测序数据,与一般的高维数据相似,会产生维度灾难(Curse Of Dimensionality)的问题。维度灾难指的是维度增多主要会带来的高维空间数据稀疏化的问题,使细胞之间的距离计算低于正常值。特征提取,是从数万个基因中选取有意义的基因,从而在降低噪声和提高聚类精确度的基础上,同时也能提高计算速度和加强对稀有细胞类型的识别。在许多的算法中,特征选取主要是根据方差系数和基因的平均表达对基因进行选取的,但是这两个指标都很容易受到噪声特征的影响,特别是一些高表达但信息量比较低的基因会对基因的平均表达造成比较大的影响。因此,通过基因的平均表达能够选取具有低表达但信息量较高的基因是比较困难的。针对以上提到的这些问题,作者开发了一种通过分离特征子空间选取有效特征,并进行分群的新算法——ENCORE。
ENCORE的计算原理
ENCORE主要包含三个主要步骤:子空间分离、在子空间内聚类、一致性聚类(图A-C)。
1)首先提供作为输入的表达矩阵,计算矩阵中每个基因的表达密度谱。然后将表达密度谱相近的基因划分到一个Feature set中,并根据不同的Feature set对原始矩阵进行分离,形成多个子空间。(图A)
2)对子空间进行分离后,进行不同子空间内细胞的聚类。对于每一个子空间,可以通过计算熵的方法,判断子空间内细胞分布的混乱程度。例如图B中的第1张图中的细胞分布比较规则,分群结果清晰,子空间的熵就比较低,而第2张图中的细胞分布混乱,分群的结果并不清楚,子空间的熵就会比较高。因此,这一步的目的是选取具有较低熵的子空间,而去除不利于进行聚类的特征。(图B)
3)筛选出低熵的子空间后,对这些低熵子空间进行整合。作者提出了一种引入一致性因子(Consensus Factor)的聚类方法,例如0代表cell i 和cell j在不同的子空间内都不会聚在一类,1代表cell i和cell j在其中的一个子空间中聚在一类,从而能够放大低熵子空间中的共有信号。最后,我们可以对聚类结果进行差异分析和可视化。(图C)
ENCORE在真实数据中的应用
在提出这种算法之后,作者将这种算法应用在标准数据集(Darmanis)和郭国骥团队的Mouse Cell Atlas(MCA)中。如图A在标准数据集(Darmanis)中,第2、3、4这三个子空间的细胞分布比较规则,而第1个子空间细胞分布较为混乱,熵较高。在图B中第34、43这两个子空间的聚类结果比较清晰。
作者利用这两个数据集分别比较了Seurat和ENCORE所选取的基因在平均值和变异系数中的差异。其中,Seurat都是选取2000个高变基因,ENCORE在第一个数据中选取17525个基因,在第二个数据中选取1041个基因。作者提出ENCORE在选取基因时的平均值和变异系数的随机性更强。
然后,作者集中对ENCORE和四种比较常用的聚类算法进行了对比。在图A中应用了两个指标作为评价聚类结果的标准:标准化互信息(NMI)和调整兰登系数(ARI)。这两个指标的值越高,说明聚类结果的准确度更高。ENCORE尽管在准确度上并不一直是最高的,但相对比较稳定。图B可以看到在Darmanis标准数据集中,ENCORE的聚类可视化结果比较好,尤其是相比于Seurat。
最后,作者在小鼠的脂肪祖细胞的数据中应用这种算法进行了分析,也就是比较常规的聚类和差异分析这些操作(图A-B)。同时,作者还在8这个群中找了一个比较特异的基因Mgp,并进行了实验验证。
总结
这是12月份的一篇新的关于单细胞测序聚类算法的文章,创新点集中于选取特征这一步骤的优化。过去选取特征,主要是选取特定数量的高变基因,通常为2000个左右,这样的选取方法可能会导致噪声基因的引入,从而导致细胞分群结果不清晰的问题。而引入子空间的概念,并选取低熵的子空间是数据降噪的一个新的思路,但是我在运行过程中发现这种算法消耗的内存远远大于Seurat,这也是这种算法存在的一个问题。
此外,我发现与信息熵相关的单细胞测序算法成为了这两年的一种趋势。例如2020年6月22日张泽民团队发表的《An entropy-based metric for assessing the purity of single cell populations》提出了一种基于信息熵的无监督基因选取和细胞类群纯度评估算法,从而有利于选择合理的聚类数目。2017年6月1日Andrew E.Teschendorff团队发表的《Single-cell entropy for accurate estimation of differentiation potency from a cell's transcriptome》提出了基于信息熵的算法,根据单细胞转录组数据对细胞的分化潜能作出评估。