数据挖掘:基于R语言的实战 | 第5章:聚类分析
第5章我们继续来学习一种无监督的数据挖掘方法——聚类分析。通过聚类分析我们可以观察到数据是怎么聚集在一起的,还可以用来描述数据的分布情况。聚类分析的应用十分广泛,例如通过对客户聚类来对其进行细分以便为客户个性化制定营销策略。本章重点介绍了两种常用的聚类方法:k均值聚类法和层次聚类法,并在方法介绍完毕之后讨论如何确定最优类别数。章节的最后提供了一个基于R语言的聚类分析案例,供小伙伴们操作起来。

5.1节讨论了观测之间的距离度量问题。在聚类前,我们首先应对数据的各连续变量做标准化处理,以避免方差大的变量在计算距离时影响太大而影响聚类结果。常用的一些距离度量包括欧式距离、切比雪夫距离、曼哈顿距离、闵可夫斯基距离,还有针对非负定比变量的堪培拉距离,以及当变量有不同测量尺度时的Gower距离。当变量个数过多时,还可以考虑根据变量的相关性强弱来进行变量聚类。
5.2节详细介绍了最常用的聚类方法之一——k均值聚类法。K均值法是一种事先定义聚成几类的聚类方法,它的核心思想有两点,一是每个类的中心是这个类所有点的平均值,二是每个点距离其自身所在类中心的距离比到别的类中心的距离近。
5.3节介绍层次聚类法。层次聚类法是一种逐步聚合或分割产生类的方法,分类的层次可以用树形图表示,树的根部表示所有观测都聚到同一类,树的叶节点表示每个个体独自成一类。5.3节的第二部分介绍了类别之间距离度量的7种方法,分别是完全连接法、单连接法、平均连接法、McQuitty法、Median法、Centroid法、Ward法。
5.4节介绍了确定最优类别数的3种方法,分别是Dindex法、Silouette法和Pseudo T2法,详细展示了如何利用Dindex值和碎石图来确定类别数。
5.5节提供了一个聚类分析的R语言小案例,代码示例均给出了详细的注释,小伙伴们快跟着一起学起来吧!

