BatchBench比较scRNA批次矫正方法

2024-05-25 10:19:22

当你的才华还撑不起你的野心时，请潜下心来，脚踏实地，跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了，通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进，一起成长。

文献速递栏目通过简短介绍，扩充知识面，每天关注，希望你也能有所收获！

文章信息

今天分享这篇文章2020年5月上传于bioRxiv上，题为：Flexible comparison of batch correction methods for single-cell RNA-seq using BatchBench 。这篇文章做了一件事，就是帮助我们区分不同的批次矫正方法，然后比较了一下优劣。文章链接：https://www.biorxiv.org/content/10.1101/2020.05.22.111211v2 。BatchBench ：https://github.com/cellgeni/batchbench

BatchBench is a Nextflow workflow for running the following scRNA-Seq data batch effect correction methods:

mnnCorrect
limma
ComBat
Seurat 3
Scanorama
Harmony
FastMNN
BBKNN

前言

首先为什么要进行批次矫正?

单细胞分析经常会整合一些公共数据，不同的实验时间、文库制备、测序方案，都会产生一些技术误差，如果太多，可能会干扰真实的生物信号。因此来自这些非生物因素的干扰就称作批次效应

作者将8种常用的批次矫正方法分为3类：

mnnCorrect、limma、ComBat、Seurat 3、Scanorama：产生一个整合、矫正后的表达矩阵
Harmony、FastMNN：不是直接操作原始表达矩阵，而是对降维后的结果操作（they operate on a low-dimensional embedding of the original expression matrices），因此如果下游分析如果要用到原始表达矩阵的话，这类方法就会受限
BBKNN：基于表达矩阵构建k-nearest neighbor graph（KNN），只能进行后续基于细胞的分析（如聚类、分群可视化），不能进行基于基因的分析（如marker基因鉴定、基因网络）

关于这8种方法：

以及这三类针对什么进行分析以及后续可以做什么，作者也作图说明：

但真正使用哪种方法，还是要依赖一个评测结果。但传统的评测只能针对已发表的方法，并且评测缺少一些高质量的数据集（比如尽可能多的包含批次效应的因素）

作者使用BatchBench，针对3种研究深入的数据集，对8种方法进行评测，这个方法的流程是：

三个数据集

Pancreas dataset

Baron (GSE84133)、Muraro (GSE85241)、Segerstolpe (E-MTAB-5061) 分别由inDrop, CEL-Seq2 和 Smart-Seq2产生。过滤细胞：细胞中基因表达量少于200；过滤基因：在少于3个细胞中表达。另外只保留有注释的细胞类型（去掉了unclassified这类的细胞）

Mouse Cell Atlas datasets

数据来自：https://figshare.com/s/865e694ad06d5857db4b

按照组织进行整合，得到了包含37个器官的数据集，其中选取了18个数据集（它们中包含大于1个批次并且有合理的细胞类型分布）。过滤细胞：基因表达量少于250；过滤基因：在少于50个细胞中表达；过滤细胞类型：细胞数量少于整体1%的类型；过滤批次：细胞数量少于总体5%的批次

Tabula Muris datasets

数据来自：https://www.google.com/url?q=https://figshare.com/projects/Tabula_Muris_Transcriptomic_characterization_of_20_organs_and_tissues_from_Mus_musculus_at_single_cell_resolution/27733&sa=D&ust=1589187433512000&usg=AFQjCNFC_0CGNwum-u2nka-OvFAmxoECtA

来自两个平台的同一组织的不同数据混合，得到11个器官的数据集。过滤细胞：基因表达量少于1000；过滤基因：在少于50个细胞中表达；过滤细胞类型：细胞数量少于整体1%的类型；过滤批次：细胞数量少于总体5%的批次。结果得到4168个基因，60828个细胞（40,058 from 10X and 20,770 from Smart-Seq2）

直接上结论

Seurat的整体效果最好，它既正确地整合了批次，又没有丢失不同细胞类型；

Harmony在pancreas和MCA的数据中表现也不错，但在矫正Tabula Muris数据时失败；Scanorama 和 fastMNN表现也算良好；

这里使用的熵评估方法，可能不太适用BBKNN，因此它需要额外的评测方法；

另外对于处理大量的细胞数量和批次，Harmony表现优秀，并且计算资源分配合理。除了Harmony和BBKNN，其他方法当遇到上百个批次的处理时（即使一个批次中的细胞数量不多）也会捉襟见肘，因此未来的批次效应处理方法应该向数据可扩展性（scalability）上发展。

如果想使用处理批次效应后的表达矩阵进行下游分析（如鉴定marker基因），这些方法都会遇到问题。因为marker基因并不是保守存在的，任何基于基因的分析（例如找差异基因或者鉴定marker基因），都是基于基因表达量，而批次矫正方法需要保证不会干扰表达量的变化，这一点也是未来需要改进的。

结果

1 测试批次整合与细胞分群

使用了人类胰腺癌的3个scRNA数据集，原始数据的UMAP结果是：

左边是三个数据集，右边是各种细胞类型但不得不说，两个图例使用的颜色太相近，容易引起混淆

可以看到，所有的方法都能将不同数据集的细胞混合起来，而依然可以分离不同的细胞类型

然后为了评估处理（先整合不同批次的细胞，然后分离不同的细胞类型）的效果，提出了计算一个”熵“：normalized Shannon entropy。如果批次方面的熵比较高，说明混合的批次之间更接近，也就是混合效果更好；如果细胞类型方面的熵比较低，说明细胞类型依然可区分

可以看到，不同的方法都保持较低的细胞类型方面的熵，因此它们都能够保证分离不同类型的细胞；但批次方面的熵差别较大。其中Seurat和Harmony整体表现较好，其次是Scanorama和fastMNN；而mnnCorrect, Limma 和 ComBat的表现较差

并且大部分方法对MCA（Mouse Cell Atlas）数据集的整合效果更好

图例：pancreas data (red), Mouse Cell Atlas (green), and Tabula Muris (blue)

2 当细胞数量或批次数量增加时，批次矫正变得困难

利用 Tabula Muris数据集（总共60,828 cells），取了它的1%、3%、5%、10%、20%、50%作比较

当细胞数量从608（1%）增至60828时，除了Scanorama、Harmony、Seurat，其他方法的批次熵都下降了50%左右。但是Scanorama在混合批次的同时，也混合了细胞类型（可以看到蓝色的虚线基本不变，说明细胞类型熵不变，也就是没有分离细胞类型）

Harmony是唯一一个在增加细胞数量后，批次熵增加的（图a）。除了Scanorama，其余方法的细胞类型熵都降低，说明细胞数量增多，细胞分群更容易

批次数量增加时，BBKNN, Seurat 和 Harmony表现最稳定（图d）

在时间方面，mnnCorrect和fastMNN随细胞数量增长，运行时间也呈现指数增长，mnnCorrect运行最慢。不过时间消耗在大部分软件中差别不大

在内存方面，所有的方法随细胞数量增长，内存消耗都呈现指数增长，其中Seurat消耗内存最多。综上，Seurat, mnnCorrect, ComBat 和 fastMNN是比较消耗资源的，而Harmony, Scanorama 和 BBKNN资源需求最小

a、d：熵的变化；b、e运行时间的变化；c、f：消耗内存的变化

3 批次处理对非监督聚类和marker基因鉴定的影响

使用三种非监督聚类方法：Leiden、Louvain、SC3，然后比较矫正前后的数据聚类结果。这个结果相似性的量化是利用Adjusted Rand Index (ARI)，图a可以看到：MCA数据集利用不同的方法聚类后结果相似，但组织之间的差异比较大；Tabula Muris数据集也是如此，不过与MCA不同的是，利用SC3方法得到的聚类结果会比Louvain或Leiden结果普遍（11个组织中有7个）有更高的ARI。奇怪的是，对于心脏和乳腺组织，最佳的聚类结果发生在：SC3+非批次矫正的数据。对于pancreas数据，SC3倾向于得到更大的ARI，而且不想MCA数据，Seurat和Harmony的聚类结果与之前的熵分析结果也一致。

对整合后的数据进行marker基因鉴定，只有ComBat和Limma的结果可以找到大部分细胞类型的marker基因，Seurat只能对少部分细胞类型进行鉴定（图b），但如果检测单个数据的marker基因与混合矫正后的marker基因之间的一致性，Seurat的一致性更强（图c）。Seurat的一致性表现是牺牲细胞类型数量得到的

单细胞转录组揭示乳腺癌转移能量代谢改变

image-20200331112435323.png 背景简介本文题为:Transcriptional diversity and bioenergetic shift in human brea ...
生信实操丨带你复现单细胞转录组纯分析文章（一）

生信实操随着测序技术的进步开发了一种单细胞转录组测序(scRNA-seq)技术,单细胞转录组测序技术可以一次检测成千上万个细胞的转录水平,在单细胞水平上检测和定量基因表达水平变化,从而揭示bulk ...
Seurat学习与使用（一）

简介Seurat是一个r包,被设计用于单细胞rna-seq数据的细胞质控和分析.Seurat旨在使用户能够识别和解释单细胞转录组数据中的异质性来源,同时提供整合不同类型的单细胞数据的函数.目前Seur ...
单细胞Marker基因可示化包Nebulosa

与传统的转录组测序相比,单细胞测序技术噪声很大,使得单细胞转录组数据包含大量的dropout事件(导致基因表达量为0或接近0),即使是一些标记(Marker)基因也有可能表达量很低.当在使用其对聚类的 ...
单细胞工具箱|Seurat官网标准流程

学习单细胞转录组肯定先来一遍Seurat官网的标准流程. 数据来源于Peripheral Blood Mononuclear Cells (PBMC),共2700个单细胞, Illumina Next ...
首次揭秘！不做实验也能发10 SCI，CNS级别空间转录组套路全解析（附超详细代码！）

江山代有套路出大家好,我是晨曦,上次的推文给大家介绍了单细胞图谱类文章,相信大家不管是看过那篇推文,还是看了我们挑圈联靠其它单细胞的相关推文,对于单细胞,不管是从流程还是从分析方式上都应该不陌生了吧 ...
仅3个单细胞测序样本怎么撑起6分的文章？

导语今天和大家分享的是2020年1月份发表在SCIENTIFIC DATA杂志上的一篇文章(IF=5.929)"Single-cell RNA sequencing of human ki ...
14种单细胞测序去批次效应哪家强

A benchmark of batch-effect correction methods for single-cell RNA sequencing data对单细胞RNA测序数据的批次效应校正 ...
不同批次矫正方法的比较分析

当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步.不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长. 文献速递栏目通过简 ...
偏瘫患者异常步态的矫正方法你需要知道

其实,通过步态分析来评估患者是否行走功能异常,来确定治疗方案.对于平时接触到的异常步态,很多时候我们也会傻傻分不清楚?下面就一起来看看几种异常步态以及具体矫治方法. 1.足下垂步态足下垂指摆动相踝关 ...
颈椎曲度变直的矫正方法

颈椎曲度变直的矫正方法
柑橘缺素诊断及矫正方法

柑橘生长发育需要大量元素(氮.磷.钾)和中微量元素(钙.镁.硫.铁.锰.硼.锌.铜和钼等),任何一种营养元素的缺乏会使生长发育迟缓或受阻,严重缺乏时柑橘生长缓慢,抗旱.抗寒和抗病虫害能力降低,产量和品 ...
张新军：鼻基底凹陷的矫正方法丨专业视点

中华整形大典医学编委:张新军整形外科主治医师美容外科主诊医师中华医学会整形外科学分会会员广东省医学美容学会抗衰老分会委员中国整形美容协会精准与数字医学分会眼整形专业委员会委员一.鼻基底的 ...
圆肩驼背猥琐颈，丑到没边怎么救？附异常站姿的矫正方法

"站.走"是我们每天都需要完成的最随意.最简单的动作,几乎所有人都是"无师自通"的学会这两个动作.但是,我们的站姿真的正确吗?我们真的会走吗? 从人体生长发育的 ...
六种常见鼻型矫正方法，收下这份保姆级鼻影画法技巧

日常化妆的过程中,你是不是也想让自己的鼻子看上去更加立体精致?但是画完鼻影,立体精致不存在,又黑又脏倒是经常有,生硬的线条吓死人!画鼻影,真的是很有必要的!但是,如果鼻影没画好,反而会是一个很大的败笔 ...
瑜伽中非常重要的膝关节超伸及矫正方法

从小学舞蹈的刘诗诗.刘亦菲,可以看出腿部显现明显的反向弯折. 正常的中立位站姿中,髋.膝.踝三个关节应基本在一条直线上.然而,当膝盖向后顶死时,髋关节前移至膝关节相对位置的前方,足部着力点移至前脚掌, ...
珍方彭磊美式整脊锁骨偏歪矫正方法

珍方彭磊美式整脊锁骨偏歪矫正方法

BatchBench比较scRNA批次矫正方法

相关推荐