ENCORE 单细胞聚类新算法

2024-08-02 05:30:06

文章信息

文献标题：Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data
发表时间：2020.12.10
发表杂志：Nucleic Acids Research(IF=11.501)
原文链接：https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236

摘要

单细胞RNA测序能够使我们在单细胞层面通过细胞类型鉴定的算法认识细胞的异质性。然而，单细胞测序数据中含有的噪声，会对细胞聚类、差异分析以及可视化造成严重的影响。作者提出运用基于特征的表达密度谱的算法ENCORE，进而区分有效特征和噪声。这种算法能实现较好的聚类效果，并能对12个标准数据集形成高分辨率的可视化效果。更重要的是，ENCORE能够对每一个群识别具有生物学意义的差异基因。

引言

单细胞RNA测序能够使研究者获得单个细胞的转录组信息，极大地拓展了我们对生命系统的认识。为了能更好地利用单细胞测序数据，开发与细胞聚类、降维可视化、特征基因识别相关的具有高精度和高分辨率的算法是非常必要的。聚类分析算法通常由归一化、特征提取、降维、距离计算、聚类、差异基因分析等步骤组成，在近几年发展迅速，并对单细胞测序结果的分析产生很大的影响。主要的几种聚类算法，例如Seurat、SIMLR和pcaReduce，在更新的过程中，不断改善聚类、距离计算、降维等方面的效果。但对于特征提取这一关键步骤，这几种算法的效果均不是很好。

高维的单细胞RNA测序数据，与一般的高维数据相似，会产生维度灾难(Curse Of Dimensionality)的问题。维度灾难指的是维度增多主要会带来的高维空间数据稀疏化的问题，使细胞之间的距离计算低于正常值。特征提取，是从数万个基因中选取有意义的基因，从而在降低噪声和提高聚类精确度的基础上，同时也能提高计算速度和加强对稀有细胞类型的识别。在许多的算法中，特征选取主要是根据方差系数和基因的平均表达对基因进行选取的，但是这两个指标都很容易受到噪声特征的影响，特别是一些高表达但信息量比较低的基因会对基因的平均表达造成比较大的影响。因此，通过基因的平均表达能够选取具有低表达但信息量较高的基因是比较困难的。针对以上提到的这些问题，作者开发了一种通过分离特征子空间选取有效特征，并进行分群的新算法——ENCORE。

ENCORE的计算原理

ENCORE主要包含三个主要步骤：子空间分离、在子空间内聚类、一致性聚类(图A-C)。

1）首先提供作为输入的表达矩阵，计算矩阵中每个基因的表达密度谱。然后将表达密度谱相近的基因划分到一个Feature set中，并根据不同的Feature set对原始矩阵进行分离，形成多个子空间。(图A)
2）对子空间进行分离后，进行不同子空间内细胞的聚类。对于每一个子空间，可以通过计算熵的方法，判断子空间内细胞分布的混乱程度。例如图B中的第1张图中的细胞分布比较规则，分群结果清晰，子空间的熵就比较低，而第2张图中的细胞分布混乱，分群的结果并不清楚，子空间的熵就会比较高。因此，这一步的目的是选取具有较低熵的子空间，而去除不利于进行聚类的特征。(图B)
3）筛选出低熵的子空间后，对这些低熵子空间进行整合。作者提出了一种引入一致性因子(Consensus Factor)的聚类方法，例如0代表cell i 和cell j在不同的子空间内都不会聚在一类，1代表cell i和cell j在其中的一个子空间中聚在一类，从而能够放大低熵子空间中的共有信号。最后，我们可以对聚类结果进行差异分析和可视化。(图C)

ENCORE在真实数据中的应用

在提出这种算法之后，作者将这种算法应用在标准数据集(Darmanis)和郭国骥团队的Mouse Cell Atlas(MCA)中。如图A在标准数据集(Darmanis)中，第2、3、4这三个子空间的细胞分布比较规则，而第1个子空间细胞分布较为混乱，熵较高。在图B中第34、43这两个子空间的聚类结果比较清晰。

作者利用这两个数据集分别比较了Seurat和ENCORE所选取的基因在平均值和变异系数中的差异。其中，Seurat都是选取2000个高变基因，ENCORE在第一个数据中选取17525个基因，在第二个数据中选取1041个基因。作者提出ENCORE在选取基因时的平均值和变异系数的随机性更强。

然后，作者集中对ENCORE和四种比较常用的聚类算法进行了对比。在图A中应用了两个指标作为评价聚类结果的标准：标准化互信息(NMI)和调整兰登系数(ARI)。这两个指标的值越高，说明聚类结果的准确度更高。ENCORE尽管在准确度上并不一直是最高的，但相对比较稳定。图B可以看到在Darmanis标准数据集中，ENCORE的聚类可视化结果比较好，尤其是相比于Seurat。

最后，作者在小鼠的脂肪祖细胞的数据中应用这种算法进行了分析，也就是比较常规的聚类和差异分析这些操作(图A-B)。同时，作者还在8这个群中找了一个比较特异的基因Mgp，并进行了实验验证。

总结

这是12月份的一篇新的关于单细胞测序聚类算法的文章，创新点集中于选取特征这一步骤的优化。过去选取特征，主要是选取特定数量的高变基因，通常为2000个左右，这样的选取方法可能会导致噪声基因的引入，从而导致细胞分群结果不清晰的问题。而引入子空间的概念，并选取低熵的子空间是数据降噪的一个新的思路，但是我在运行过程中发现这种算法消耗的内存远远大于Seurat，这也是这种算法存在的一个问题。

此外，我发现与信息熵相关的单细胞测序算法成为了这两年的一种趋势。例如2020年6月22日张泽民团队发表的《An entropy-based metric for assessing the purity of single cell populations》提出了一种基于信息熵的无监督基因选取和细胞类群纯度评估算法，从而有利于选择合理的聚类数目。2017年6月1日Andrew E.Teschendorff团队发表的《Single-cell entropy for accurate estimation of differentiation potency from a cell's transcriptome》提出了基于信息熵的算法，根据单细胞转录组数据对细胞的分化潜能作出评估。

单细胞转录组揭示乳腺癌转移能量代谢改变

image-20200331112435323.png 背景简介本文题为:Transcriptional diversity and bioenergetic shift in human brea ...
【综述】Nature Methods | 干货！一文读懂单细胞转录组分析的现状和问题！

文献来源 Kharchenko, Peter V. The triumphs, and limitations of computational methods for scRNA-seq. Natu ...
单细胞Marker基因可示化包Nebulosa

与传统的转录组测序相比,单细胞测序技术噪声很大,使得单细胞转录组数据包含大量的dropout事件(导致基因表达量为0或接近0),即使是一些标记(Marker)基因也有可能表达量很低.当在使用其对聚类的 ...
Genome Biology | SCRABBLE: 利用未细分的转录组测序数据作为限制对单细胞转录组测序进行估算

推荐:江舜尧编译:多儿编辑:马莉费城儿童医院学者Kai Tan等人于2019年5月7日在<Genome Biology>上发表题目为<SCRABBLE: single-cell ...
超长综述｜单细胞RNA测序研究动脉粥样硬化指南

编译:刘娟,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读单细胞水平的分子异质性研究技术加深了我们对包括动脉粥样硬化斑块在内的组织中细胞生物多样性的了解.现有的商业化系统能从成千上万个单细胞中 ...
［首藏作品］（6420）机器学习新算法更好描述量子系统模型

机器学习新算法更好描述量子系统模型科技日报北京4月29日电 (实习记者张佳欣)近日,英国布里斯托大学量子工程技术实验室的研究人员在<自然·物理学>杂志上发表一篇新论文,解释了一种通过充当自 ...
Q China 第27期大型低温制冷技术取得重大突破｜香港大学学者开发新算法

|第二十七期(2021.04.24-2021.04.30) 本周,商业领域,问天量子与敏宇数行完成了战略合作协议签约仪式.双方将基于各自技术及资源优势,在金融等领域共同推进量子技术的开发与应用. ...
人类之熵，《人生新算法》读书笔记

今天重读了矢野和男的<人生新算法>,这本书基于热力学中的「熵」原理,借助人工智能的思路,通过仪器采集胳膊的活动,然后定量分析生产力.幸福.运气等以前很难量化的东西. 量化的方式是在胳膊上戴 ...
【行业观察】美研究人员提出新算法来快速预测新型材料在特定温度下的性能

导读:据today.tamu网站4月12日报道,美国德克萨斯农工大学(英語:Texas A&M University,缩写为A&M或TAMU)已经研究出了一种新的算法,可以快速预测新型 ...
新算法！2021年一季度越南GDP升至831亿美元，去年同期是511亿

还记得前几年的那个新闻吗?越南当局采用新的GDP统计.核算方法,将2011年至2017年的GDP做了重新梳理和归纳--主要包括:GDP的核算方式符合国际规范,增加对私营经济的统计完善等. 按新的GDP ...
2019年第1卷第2期｜江梅等：融合K-means聚类分割算法与凸壳原理的遮挡苹果目标识别与定位方法（摘要）

doi:10.12133/j.smartag.2019.1.2.201903-SA003 引用信息江梅, 孙飒爽, 何东健, 宋怀波. 融合K-means聚类分割算法与凸壳原理的遮挡苹果目标识别与 ...
机器人大牛 Daniela Rus 领衔！MIT 新算法实现软体机器人「本体感知」

为创造一个不受外界帮助的软体机器人,MIT CSAIL 将目光聚焦于深度学习. " 作者 | 付静说起软体机器人,或许很多人都不觉得陌生了. 软体机器人的发展离不开包括材料学.机器人学.生 ...
AI解梦成为现实，贝尔实验室新算法尝试找到梦境的隐藏含义

文章来源: 学术头条古代巴比伦人认为梦境包含了预言,而古埃及人则将梦境视为神灵给予的信息来崇拜.在 19 世纪 90 年代,西格蒙德·弗洛伊德(Sigmund Freud)为梦境里面的人物.物体和场 ...
【OPIR】美国太空发展局为过顶持久红外项目寻求目标识别与捕获新算法

作者:吴永亮(中电博微) [美国防务内情网站2021年3月11日报道]美国太空发展局(SDA)希望改进过顶持久红外(OPIR)传感器的自动目标识别能力,以寻求新的算法来帮助识别高超声速滑翔飞行器.巡航 ...

ENCORE 单细胞聚类新算法

文章信息

摘要

引言

ENCORE的计算原理

ENCORE在真实数据中的应用

总结

相关推荐