JASP做K均值聚类提供的肘部图是个亮点

K均值聚类要求事先给出聚类个数K,或你需要对K有一定的认知。SPSS操作时允许用户直接指定K,但是没有配套的可视化图形辅助判断聚类是否合适。

JASP提供了肘部图,有助于我们理解聚类个数K。

以著名的鸢尾花数据为例,大家有需要的后台回复【鸢尾花】三个字或许下载链接。

我们尝试以花瓣长短,花萼长短对150株鸢尾花进行聚类,先要求JASP通过算法做智能化的判断,大家看下方的肘部图:

此图y轴为总组内平方和x轴为聚类数,可用于最佳聚类数的确定。

大家看BIC最小时的聚类数应该在3类、4类、5类,JASP选定是聚成5类时有最小的BIC,因此是按K=5来输出相关结果的。

仔细观察,其实在3类时已经有拐点气质,再结合鸢尾花基本性状(已知鸢尾花是3个类型),用户是可以尝试聚成3类再看各类特征的。

JASP强制聚成3类时的t-SNE散点图如下:

JASP并没有在此图上给出更多信息,比如两个轴的刻度,光秃秃的给人很突兀的感受。

散点分布看,150株鸢尾花被分为3类,那么聚类结果和真实结果是不是匹配呢?

要求JASP输出聚类结果,并给出交叉透视表格,来看:

只有一个类是100%完全预测准确,另外两个类显然有类别预测出错是比较明显的。

本文完
文/图=数据小兵


更多JASP统计文章

一款全新的统计软件:JASP

JASP 0.12 新版本发布

JASP可读取3种外部数据文件
JASP连续数据之相关分析

JASP分类数据之相关分析

用JASP统计软件做单样本t检验

用JASP统计软件做配对样本t检验

JASP计算cohen's d效应量指标
JASP可视化建模:简单一元线性回归
logistic回归分析多重共线性检验

JASP统计分析案例:单因素方差分析

JASP做四格表卡方检验
JASP 0.13 新版发布

惊艳!JASP相关系数矩阵及热力图
用散点图判断变量间线性关系
JASP统计Durbin-Watson检验的显著性P值

JASP简单一元线性回归案例实践
JASP数据分析:计算新变量

用新统计软件JASP尝试做logistic回归
JASP统计软件做logistic回归分析使用小结
JASP 0.13 未提供主成分法以提取公因子

JASP 0.14 主成分分析

7节课学会如何用JASP做t检验

JASP 0.14 版提供偏相关分析
用JASP做量表问卷信度分析

(0)

相关推荐

  • 鸢尾花

    记忆 04-26 阅读 914 关注 来自话题 #让我满意的摄影作品 7.8万篇 摄影:记忆 蓝色妖姬飞舞灿, 轻盈蝶韵气如兰. 射鸢一辩空中啸, 花萼三枚赋剑繁. 鸢尾花 图1 鸢尾花 图2 鸢尾花 ...

  • 扁竹兰与蝴蝶花,排排坐,找不同。。。

    因为疫情,只能在小区里到处逛悠.像个植物猎人,几乎把小区什么犄角旮旯都走遍了.终于在一处非常僻静的地方,大片枸骨灌木后,发现了两三株扁竹兰(下图). 扁竹兰 再行不远处,还有一大群蝴蝶花(下图),显然 ...

  • 鸢尾花(图)

    鸢尾花(图)

  • 第120天:机器学习算法之 K 均值聚类

    本文我们来学习一下另一种经常听到的机器学习算法-- K 均值聚类. 这个名字确实跟"K 近邻"有些相像,但是要明确的是,"K 近邻"中的"K" ...

  • JASP做四格表卡方检验

    在某项调查研究中,所有受访家庭按照家庭收入被分为低收入家庭和中高收入家庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同. 家庭是否拥有轿车是一个二结局的分类变量,要么有要么没有,互斥,所以该问 ...

  • JASP系统聚类:树状图暂无标签注释

    12月17日,JASP官方发布了 V 0.14.1 版本.今天咱们就用这个版本来练习完成聚类分析案例. 收集到我国某年31个地区城镇居民平均每人家庭收入来源的统计数据,试对全国各地区的收入来源结构进行 ...

  • 一直想改变自己却做不到?提供两个简单的新思路

    我们平时常把问题,归结于自身原因,比如不自律.爱拖延.但实际上,过于放大了个人意志力的重要性,高估了内部因素的作用,却忽略了外部环境的影响. 比如说,本来基因决定冷冷能长到180cm的,但后来由于学习 ...

  • K线干货系列第四讲 私募常做K线组合

    K线干货系列第四讲 私募常做K线组合

  • K均值算法

    K均值算法 K均值算法是一种聚类算法,把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定. k均值算法是一种无监督的聚类算法.算法将每个样本分配到离它最近的那个类中心所代表的类,而 ...

  • 一句话总结K均值算法

    一句话总结K均值算法 核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定. k均值算法是一种无监督的聚类算法.算法将每个样本分配到离它最近的那个类中心所代表的类,而类中心的确 ...

  • 波兰动物园敢做,给大象提供大麻

    鲁晓芙,财经作家,旅居欧洲,以荷比卢为基地,从事全欧洲投资并购业务. 中国经济已经国际化了,不了解欧洲,有时候,你就不了解中国. 欢迎关注:鲁晓芙看欧洲. 合作:Xiaofu_Lu 近日,波兰华沙动物 ...

  • 周末了,让你家的高中娃娃做一做!均值不等...

    周末了,让你家的高中娃娃做一做!均值不等式培优练习题5,对高一的娃娃来说,已经能练出效果了!并且最后一题所教的高一学生基本都做不上.所以,提水平,要从中档题抓起!切不可只功难题!