UMAP的初步了解及与t-SNE的比较

降维是机器学习中的可视化和理解高维数据的强大工具。t-SNE是最广泛使用的可视化技术之一,但其性能在大型数据集中会受到影响。

UMAP是McInnes等人的一项新技术。与t-SNE相比,它具有许多优势,最显著的是提高了速度并更好地保存了数据的全局结构。例如,UMAP可以在3min之内处理完784维,70000点的MNIST数据集,但是t-SNE则需要45min。此外,UMAP倾向于更好地保留数据的全局结构,这可以归因于UMAP强大的理论基础。

1

简单比较UMAP与t-SNE

下图是UMAP和t-SNE对一套784维Fashion MNIST高维数据集降维到3维的效果的比较。高清3D图参见:https://pair-code.github.io/understanding-umap/。

虽然这两种算法都表现出强大的局部聚类并将相似的类别分组在一起,但UMAP还将这些相似类别的分组彼此分开。另外,UMAP降维用了4分钟,而多核t-SNE用了27分钟。

2

UMAP参数

UMAP的两个最常用的参数:n_neighbors 和 min_dist,它们可有效地用于控制最终结果中局部结构和全局结构之间的平衡。

最重要的参数是 n_neighbors ,近似最近邻居数。它有效地控制了UMAP局部结构与全局结构的平衡,数据较小时,UMAP会更加关注局部结构,数据较大时,UMAP会趋向于代表大图结构,丢掉一些细节。

第二个参数是 min_dist,点之间的最小距离。此参数控制UMAP聚集在一起的紧密程度,数据较小时,会更紧密。较大的值会更松散,而将重点放在保留广泛的拓扑结构上。

上图可以通过https://pair-code.github.io/understanding-umap/自己调整一下参数看一下。

3

进一步比较UMAP与t-SNE

t-SNE和UMAP大部分的表现非常相似,但以下示例明显例外:宽而稀疏的cluster中有密集的cluster(如下图所示)。UMAP无法分离两个嵌套的群集,尤其是在维数较高时。

UMAP在初始图形构造中局部距离的使用可以解释该算法无法处理情况的原因。由于高维点之间的距离趋于非常相似(维数的诅咒),所以可能会因此将其混合在一起。

【参考】

https://pair-code.github.io/understanding-umap/

(0)

相关推荐

  • scPhere——用地球仪来展示降维结果

    ‍ 文章信息 文章题目:Deep generative model embedding of single-cell RNA-Seq profiles on hyperspheres and hype ...

  • Python用T-SNE非线性降维技术拟合和可视化高维数据iris鸢尾花、MNIST 数据

    原文链接:http://tecdat.cn/?p=24002 T-distributed Stochastic Neighbor Embedding (T-SNE) 是一种可视化高维数据的工具.T-S ...

  • OSCA单细胞数据分析笔记8—Dimensionality reduction

    对应原版教程第9章:http://bioconductor.org/books/release/OSCA/overview.html 在scRNA-seq中,根据成千上万个基因表达信息(维度)定义细胞 ...

  • 给你的UMAP瘦身

    挖掘到了一个段子手学徒,总是给我惊喜.把枯燥无味的知识点讲解的让人捧腹大笑! 下面是2021八月份学徒的投稿 你有没有因为单细胞聚类结果混沌不清而惆怅! 你有没有因为找不到亚群之间的边界而皱眉! 不要 ...

  • 科研 | Nature Communications:t-SNE在单细胞转录组学上的应用

    编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 单细胞转录组学产生了越来越多的数据,其中包含多达数百万个细胞中数千个基因的RNA表达水平.常见的数据分析管道包括降维步骤,用于以二维方 ...

  • ESP8266_NONOS_SDK指南.上

    首先要明确一点就是,乐鑫官方其实是不推荐用这个NoNos的模式开发的.这个开发就是向从传统的单片机开发模式一样.只不过是这个比哪个的抽象水平更高级而已.本质上也是无系统的开发,需要考虑的事情很多,但是 ...

  • cytofWorkflow之聚类分群(四)

    前面我们公布了<cytof数据资源介绍(文末有交流群)>,现在就开始正式手把手教学. 上一讲我们构造好了SingleCellExperiment对象,后续全部的分析都会以这个SingleC ...

  • 【深度学习】收藏|神经网络调试Checklist

    前言 作为一名每天与神经网络训练/测试打交道的同学,是否经常会遇到以下这几个问题,时常怀疑人生: 怎么肥事,训练正常着呢,咋效果这么差呢? 嗯..再等等是不是loss就更低了.啊?明明loss更低了呀 ...

  • 吹爆这6款超好用的在线神器,无需注册免费使用!太上头了!

    Hello,各位叨友们好!我是叨叨君~ 今天我要跟给大家推荐6款好玩的在线神器,无需注册登录,打开网站即可免费使用,特别好用,每一个都能让你大开眼界! 01 抖音风特效生成器 网址:https://p ...

  • 【AI白身境】深度学习中的数据可视化

    今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何用爬虫爬取数据,那爬取完数据之后就应该是进行处理了,一个很常用的手段是数据可视化. ...

  • H5的Notification特性

    目前,web网页使用桌面通知功能的越来越多,包括微博,腾讯视频等大厂站,桌面通知功能是H5的一个API - Notifications.它允许网页或应用程序可以发出通知,通知将被显示在页面之外的系统层 ...

  • 【机器学习】机器学习中必知必会的 8 种降维技术,最后一款超硬核!

    探索性数据分析是数据科学模型开发管道的重要组成部分.数据科学家将大部分时间花在数据清洗.特征工程和执行其他数据整理技术上.降维是数据科学家在执行特征工程时使用的技术之一. 降维是将高维数据集转换为可比 ...