JASP做K均值聚类提供的肘部图是个亮点
K均值聚类要求事先给出聚类个数K,或你需要对K有一定的认知。SPSS操作时允许用户直接指定K,但是没有配套的可视化图形辅助判断聚类是否合适。
JASP提供了肘部图,有助于我们理解聚类个数K。
以著名的鸢尾花数据为例,大家有需要的后台回复【鸢尾花】三个字或许下载链接。
我们尝试以花瓣长短,花萼长短对150株鸢尾花进行聚类,先要求JASP通过算法做智能化的判断,大家看下方的肘部图:
此图y轴为总组内平方和x轴为聚类数,可用于最佳聚类数的确定。
大家看BIC最小时的聚类数应该在3类、4类、5类,JASP选定是聚成5类时有最小的BIC,因此是按K=5来输出相关结果的。
仔细观察,其实在3类时已经有拐点气质,再结合鸢尾花基本性状(已知鸢尾花是3个类型),用户是可以尝试聚成3类再看各类特征的。
JASP强制聚成3类时的t-SNE散点图如下:
JASP并没有在此图上给出更多信息,比如两个轴的刻度,光秃秃的给人很突兀的感受。
散点分布看,150株鸢尾花被分为3类,那么聚类结果和真实结果是不是匹配呢?
要求JASP输出聚类结果,并给出交叉透视表格,来看:
只有一个类是100%完全预测准确,另外两个类显然有类别预测出错是比较明显的。
本文完
文/图=数据小兵
更多JASP统计文章
JASP计算cohen's d效应量指标
JASP可视化建模:简单一元线性回归
logistic回归分析多重共线性检验
惊艳!JASP相关系数矩阵及热力图
用散点图判断变量间线性关系
JASP统计Durbin-Watson检验的显著性P值
JASP简单一元线性回归案例实践
JASP数据分析:计算新变量
用新统计软件JASP尝试做logistic回归
JASP统计软件做logistic回归分析使用小结
JASP 0.13 未提供主成分法以提取公因子
赞 (0)