单细胞数据降维可视化最新工具UMAP的介绍 | Public Library of Bioinfor...

高通量单细胞组学数据的一个显著性特点就是数据量大,一次能反映的细胞数量多。因此,通过降维和可视化去展示细胞数据特征是一个非常重要的工作。翻开各类发表的单细胞组学文章,不管是CNS的还是其他,几乎所有的结果中,映入眼帘的第一张图片通常是数据结果的降维图形化展示。

图1  PBMC细胞单细胞转录组数据展示图
实现高维数据可视化的理论基础是基于降维算法。降维算法一般分为两类:那些寻求在数据中保存距离结构的,以及倾向于保存局部距离而不是全局距离的。PCA[1]、MDS[2]等算法属于前者,t-SNE[3,4]、diffusion maps[5]等算法都属于后者。

对高维单细胞数据的可视化展示,以t-SNE为代表的非线性降维技术,由于其能够避免集群表示的过度拥挤,在重叠区域上能表示出不同的集群而被广泛运用。然而,任何技术方法都不是完美的,t-SNE也一样,它的局限性体现在丢失大规模信息(集群间关系)、计算时间较慢以及无法有效地表示非常大的数据集[6]等方面。

那么,有没有其它方法能在一定程度上克服这些弱点呢?

UMAP就是这样一个能解决这些问题的降维和可视化的工具。

统一流形逼近与投影(UMAP,Uniform Manifold Approximation and Projection)是一种新的降维流形学习技术。UMAP是建立在黎曼几何和代数拓扑理论框架上的。UMAP是一种非常有效的可视化和可伸缩降维算法。在可视化质量方面,UMAP算法与t-SNE具有竞争优势,但是它保留了更多全局结构、具有优越的运行性能、更好的可扩展性。此外,UMAP对嵌入维数没有计算限制,这使得它可以作为机器学习的通用维数约简技术。

从上述定义可以看到,UMAP对于单细胞这类大数据、高维数据来说,是一个正中下怀的好工具。那么,在真实数据运用中,这种优势能体现出来吗?以下我们通过实际数据对比进行展示。

1.小数据集中,t-SNE和UMAP差别不是很大

我们分别以个和个单细胞的转录组数据为基础,分别通过和进行降维可视化展示,得到如下图:

图2  200和500个细胞的单细胞转录组数据的t-SNE和UMAP降维分群图
可以看到,在小数据集下,两者对细胞集群的展示上,效果比较类似,基本能把不同类型的细胞群进行区分。所以,当数据集比较小的情景下,已能足够展示不同群体细胞特征。

2.大数据集中,UMAP优势明显(30多万个细胞的降维可视化分析)

我们同时在一个数据集上运行、和,该数据集涵盖了来自个不同的富含和自然杀伤细胞的人体组织的个样本,共含有万多个细胞。

图3  PCA,t-SNE和UMPA的降维展示图
通过数据降维和可视化展示可以看出,PCA分群效果最差,UMAP和t-SNE都成功将与相似细胞群相对应的簇聚集在一起。但是与t-SNE相比,UMAP还提供了有用的和直观的特性、保留了更多的全局结构,特别是细胞子集的连续性。

接下来,我们对上述数据分别用细胞类型和组织来源类型进行着色展示:

(1).细胞类型着色

图4  根据细胞类型的细胞着色图
(2).组织类型着色
图5  根据组织来源的细胞着色图
通过在和图上对来源组织进行颜色编码,我们发现比更经常地根据来源组织分离细胞群;相反,根据细胞在每个主要集群中的起源对细胞进行排序,大致是从脐带血和外周血单个核细胞到肝脏和脾脏,以及一端的扁桃体到另一端的皮肤、肠道和肺。

当我们对特定T细胞标志性marker进行绘图,我们观察到UMAP能够概括T细胞内每个主要集群的分化阶段,从UMAP投影上的驻留记忆T细胞标志物CD69和CD103、记忆T细胞标记CD45RO和幼稚T细胞标记CCR7的表达水平可见。相比之下,虽然t-SNE在群集中确定了类似的连续性,但它们沿共同轴没有明显的结构。

由此可见,在大数据降维和可视化方面优势突出。

图6  Marker基因的细胞标记图
随着研究成本的降低和深入,单细胞研究的细胞数量和数据信息肯定会往上走,未来单细胞组学数据将会从现有千万的基础上增加到个数量级。因此,在这种发展趋势下,的发展空间会更大更广。

参考文献:

[1] Harold Hotelling. Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417, 1933.
[2] J. B. Kruskal. Multidimensional scaling by optimizing goodness of fit to anonmetric hypothesis. Psychometrika, 29(1):1–27, Mar 1964.
[3] Laurens van der Maaten and Geo‚rey Hinton. Visualizing data using t-sne.Journal of machine learning research, 9(Nov):2579–2605, 2008.
[4] Laurens van der Maaten. Accelerating t-sne using tree-based algorithms. Journal of machine learning research, 15(1):3221–3245, 2014.
[5] Ronald R Coifman and Stephane Lafon. Diffusion maps. Applied and computational harmonic analysis, 21(1):5–30, 2006.
[6]. Van Der Maaten, L. & Hinton, G. Visualizing high-dimensional data using t-SNE.journal of machine learning research. J. Mach. Learn. Res. 9, 26 (2008).
[7]. McInnes, L. & Healy, J. UMAP: uniform manifold approximation and projection for dimension reduction. Preprint at https://arxiv.org/abs/1802.03426 (2018).
(0)

相关推荐

  • 14种单细胞测序去批次效应哪家强

    A benchmark of batch-effect correction methods for single-cell RNA sequencing data对单细胞RNA测序数据的批次效应校正 ...

  • PNAS | 单细胞转录组测序揭示了人类TCRVδ1和TCRVδ2γδT淋巴细胞共有的和独特的细胞毒性特征

    推荐:江舜尧 编译:多儿 编辑:马莉 法国图卢兹癌症研究中心学者Jean-Jacques Fourniéa等人于2019年5月22日在<PNAS>上发表题目为<Single-cell ...

  • 单细胞转录组数据处理之降维聚类分群

    前面我们一起学习了单细胞转录组数据的上游分析,而且了解了自己的项目的样本数量和测序量,还过滤了不合格的细胞和基因, 系列教程目录如下: 01. 上游分析流程 02.课题多少个样品,测序数据量如何 03 ...

  • 单细胞转录组测序中的批次效应知多少? (上)

    写教程的话,我的优点仅仅是量大,坚持了七年多写了超1万篇教程.但实际上绝大部分都浮于表面,深度不够. 恰好最近看到了一个超级优秀的博客,安排了其中几篇给学徒们翻译和理解,超级值得读! 阅读前面的翻译稿 ...

  • Seurat 4.0 || 单细胞PBMC多模态参考数据集

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树. 生信技能树核心成员,单细胞天地特约撰稿人,简书创作者,单细胞数据科学家. 前情回顾 Seurat 4.0 ||您的 ...

  • 那些年我们画过的UMAP图

    做科研有多难?查找文献.设计实验.建立方法.做实验.数据分析.做报告.没有做过生信分析的多数人往往觉得做实验是最艰难的一环.但谁又明白生信分析的同学需要跨过的坑迈过的坎?在日复一日的科研生活中,也许有 ...

  • OSCA单细胞数据分析笔记8—Dimensionality reduction

    对应原版教程第9章:http://bioconductor.org/books/release/OSCA/overview.html 在scRNA-seq中,根据成千上万个基因表达信息(维度)定义细胞 ...

  • scPhere——用地球仪来展示降维结果

    ‍ 文章信息 文章题目:Deep generative model embedding of single-cell RNA-Seq profiles on hyperspheres and hype ...

  • 同一细胞中转录组和染色质高通量测序联合分析

    文献详解栏目 每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献.如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,积土成山,积水成渊. 当然 ...

  • 科研 | Nature Communications:t-SNE在单细胞转录组学上的应用

    编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 单细胞转录组学产生了越来越多的数据,其中包含多达数百万个细胞中数千个基因的RNA表达水平.常见的数据分析管道包括降维步骤,用于以二维方 ...

  • 【机器学习】机器学习中必知必会的 8 种降维技术,最后一款超硬核!

    探索性数据分析是数据科学模型开发管道的重要组成部分.数据科学家将大部分时间花在数据清洗.特征工程和执行其他数据整理技术上.降维是数据科学家在执行特征工程时使用的技术之一. 降维是将高维数据集转换为可比 ...

  • 单细胞初探(seurat基础流程)(2021公开课配套笔记)

    新课发布在B站了,马上有热心的粉丝看完后写了配套笔记: 下面是粉丝linbo的笔记投稿 前言 自学生信半载有余,跌跌撞撞,不敢和大佬同称萌新,勉强算得上菜鸡.根据课题组进展,马上要接手一个单细胞课题, ...

  • 单细胞Marker基因可示化包Nebulosa

    与传统的转录组测序相比,单细胞测序技术噪声很大,使得单细胞转录组数据包含大量的dropout事件(导致基因表达量为0或接近0),即使是一些标记(Marker)基因也有可能表达量很低.当在使用其对聚类的 ...

  • 单细胞RNA-seq数据分析最佳实践(中)

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 文章信息 Luecken MD, Theis FJ ...

  • 单细胞工具箱|Seurat官网标准流程

    学习单细胞转录组肯定先来一遍Seurat官网的标准流程. 数据来源于Peripheral Blood Mononuclear Cells (PBMC),共2700个单细胞, Illumina Next ...

  • sc-ATAC-seq细胞类型注释策略

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 解释任何单细胞测序数据的起点都是对给定数据集中的细 ...