数据科学家需要知道的聚类算法有哪些?开课吧

聚类是一种机器学习技术,涉及数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点分类到特定的组中。理论上,同一组中的数据点应该具有相似的属性或特征,而不同组中的数据点应该具有高度不同的属性或特征。聚类是一种无监督学习方法,是统计数据分析中应用最广泛的一种技术。

数据科学家需要知道的聚类算法有哪些?开课吧

数据科学家需要知道的5种流行的聚类算法如下:

K-Means聚类

K-Means可能是最知名的聚类算法,它在很多介绍性的数据科学和机器学习课程中都会讲到。它在代码中很容易理解和实现!

K-Means的优点是非常快,因为我们所做的只是计算点到群中心的距离,很少的计算!因此,它具有线性复杂度O(n)。

Mean-Shift 聚类

Mean shift聚类是一种基于滑动窗口的算法,它试图找到数据点的密集区域。它是一种基于中心的算法,其目标是定位每个组/类的中心点,其工作原理是将中心点更新为滑动窗口内点的平均值。然后在后处理阶段对这些候选窗口进行筛选,以消除几乎重复的内容,形成最终的中心点集及其对应的组。

与K-means聚类相比,不需要选择簇的数量,因为均值漂移会自动发现这一点。这是一个巨大的优势。簇中心收敛于最大密度点的事实也是非常可取的,因为它非常直观,易于理解,并且很好地符合自然数据驱动。缺点是窗口大小/半径“r”的选择可能非常重要。

数据科学家需要知道的聚类算法有哪些?开课吧

基于密度的噪声应用空间聚类(DBSCAN)

DBSCAN是一种基于密度的聚类算法,类似于均值漂移。与其他聚类算法相比,DBSCAN具有很大的优势。首先,它根本不需要设置簇的数量,它还可以将异常值识别为噪声,这与均值漂移不同,均值漂移只是将异常值扔进一个簇,即使数据点非常不同。此外,它能够很好地找到任意大小和任意形状的簇。

基于混合高斯模型的EM算法

K-Means的一个主要缺点是它很原始的使用平均值作为簇的中心。高斯混合模型(GMMs)给了我们比K-Means更大的灵活性。

层次聚类

层次聚类算法实际上分为两类:自顶向下和自底向上。自底向上算法在开始时将每个数据点视为单个簇,然后依次合并两个簇,直到所有簇合并到包含所有数据点的单个簇中。因此,自底向上的层次聚类被称为分层聚类或HAC。簇的层次结构用树(或树状图)表示。树根是收集所有样本的唯一簇,叶子是只有一个样本的簇。

(0)

相关推荐

  • ML之UL:无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略

    ML之UL:无监督学习Unsupervised Learning的概念.应用.经典案例之详细攻略 参考文章:<2019中国人工智能发展报告>-清华大学中国工程院知识智能中心-201912 ...

  • 每个数据科学家都应该知道的5个特征选取算法

    作者:Rahul Agarwal 编译:ronghuaiyang 导读 福利:什么样的足球运动员是好足球运动员? 数据科学是对算法的研究. 我接触过很多算法,所以我列出了一些最常见的和最常用的算法. ...

  • 基于数据关联的多雷达点迹融合算法研究

    0 引言 现代战争已成为高科技的信息战争,随着反辐射导弹.低空突防.隐身技术和电子对抗技术的发展,仅仅依赖单部的雷达已经无法满足作战需求.目前装备的雷达广泛应用航迹融合技术,但是多雷达组网的点迹融合技 ...

  • 如何成为一名数据科学家?

    一.数据科学家的起源 "数据科学"(DataScience)起初叫"datalogy ".最初在1966年由Peter Naur提出,用来代替"计算机 ...

  • 【機器學習】聚类算法使用小结

    聚类算法使用小结 k-means 原理 优点 缺点 sklearn 调参 凝聚聚类 原理 优点 缺点 DBSCAN 原理 优点 缺点 sklearn 调参 高斯混合聚类 原理 优点 缺点 MeanSh ...

  • 写给数据科学家的傅立叶变换

    本文简要介绍了数学上的傅立叶变换及其在AI中的应用. 介绍 傅里叶变换是有史以来最深刻的数学见解之一,但不幸的是,其含义深深地埋在了一些荒谬的方程式中. 傅立叶变换是一种将某些东西分解为一堆正弦波的方 ...

  • 一个完整的K-means聚类算法指南!

    来源:海豚数据科学实验室 著作权归作者所有,本文仅作学术分享,若侵权,请联系后台删文处理 假设您想根据内容和主题对数百(或数千)个文档进行分类,或者您希望出于某种原因将不同的图像组合在一起.或者更重要 ...

  • spectral-cluster聚类算法详解

    spectral clustering,称之为谱聚类算法,和近邻传播AP算法一样,也是基于图论的算法,都是将样本点两两相连,构成图这一数据结构,不同的是,谱聚类是通过切图的方式来划分不同的cluste ...

  • 到底什么是谱聚类算法?

    谱聚类算法是目前最流行的聚类算法之一,其性能及适用场景优于传统的聚类算法如k-均值算法. 本文对谱聚类算法进行了详细总结,内容主要参考以下论文,若对谱聚类算法有不理解的地方,欢迎交流. 论文名称: & ...

  • Affinity Propagation聚类算法详解

    Affinity Propagation简称AP, 称之为近邻传播算法, 是一种基于图论的聚类算法.将所有样本点看做是一个网络中的节点,图示如下 在样本点构成的网络中,每个样本点都是潜在的聚类中心,同 ...