Rethinking batch effect removing methods—各种NMF
原文连接:https://zhuanlan.zhihu.com/p/356713157
本来这篇文章是想讲 cFIT 的,但是在群里分享,经张世华老师指点,告诉我几篇非常相关的文章,其实 LIGER 的 idea 是源自 Integrative non-negative matrix factorization (iNMF), 然后更早就是张老师做的 joint non-negative matrix factorization (jNMF),之后的后续是 Common and Specific patterns via Matrix Factorization (CSMF)。感觉都是很好的文章,于是就一并在这一篇中整理归纳了。才疏学浅,写的混乱的地方评论区大家随意评论~
cFIT: Peng M, Li Y, Wamsley B, et al. Integration and transfer learning of single-cell transcriptomes via cFIT[J]. Proceedings of the National Academy of Sciences, 2021, 118(10).
JNMF: Zhang S, Li Q, Liu J, et al. A novel computational framework for simultaneous integration of multiple types of genomic data to identify microRNA-gene regulatory modules[J]. Bioinformatics, 2011, 27(13): i401-i409.
iNMF: Yang Z, Michailidis G. A non-negative matrix factorization method for detecting modules in heterogeneous omics multi-modal data[J]. Bioinformatics, 2016, 32(1): 1-8.
JSCM: Zhang L, Zhang S. Learning common and specific patterns from data of multiple interrelated biological scenarios with matrix factorization[J]. Nucleic acids research, 2019, 47(13): 6606-6617.
回顾前文
问:rethinking batch effect removing methods 到底是 rethinking 了什么呢
答:反思串联了这几个整除 batch effect 的方法的核心 idea 是什么。
从 CCA 不是 CCA,其实是保留了跨 batch 样本之间的余弦距离开始讲起
如果这个降维是保留了样本之间的余弦距离的话那么其实和直接使用源数据的跨 batch 距离来找到 MNN 是基本一致的,除了使用了 SVD 取前 K 大的特征值来 denoise 。
MNN 的附录中给出了为什么能够使用跨 batch 的距离来找到生物学上的对应的一个模型解释。$X=X_{Bio} + X_{Batch} = B\beta+W_{X} \alpha $,在这个模型的基础上做一些假设就可以推导出生物距离最近的即为远数据中最近。
而通过这个模型,我们可以发现选取不同的假设,可以得到不同文章的方法。包括 CFIT, LIGER,JNMF, iNMF, JSCM。或者换句话说这些方法背后认为的生物模型就是这个。
Model
LIGER
iNMF
JNMF
CSMF
cFIT
都是由
这个代表生物真实表达量通过一个线性变化得到的。其中
代表线性变换的 scale,
表示一个 offset。一句话总结, cFIT 认为batch effect 的影响是一个 gene specific 的 线性变换。
为 noise 乍一看 cFIT 和之前所述的分解为两部分的 model 并没有什么关系。但是只要稍作变换就可以看出其实还是原始模型的变种。
是线性于
的。
Summary
。但是这个模型下,MNN 和所谓的 CCA 其实是没那么显式可以纳入的,最近还要好好想想。直觉上是把非负的条件变成正交就行,但具体形式还没搞出来。