R数据分析：如何用层次聚类分析做“症状群”，实例操练

2024-04-27 08:58:58

好多同学硕士论文开题咨询我想做症状群，有用因子分析的，也有用潜类别分析的，这些方法之前都给大家写过，今天再给大家写一个用无监督的机器学习方法-------层次聚类做症状群的方法。同学们如果对这个方法有兴趣的话，开题什么的都可以往这方面考虑，希望看了本文之后能够对层次聚类有一定了解，能思考下自己能不能往这个方向上展开。

做出来的结果呈现就是下图：这个是一篇已经发表的文章中截图出来的，作者是将一个疾病的症状聚类了3类，探讨了每一类的特征，并提出了治疗照护的建议。

文章感兴趣的同学自己去瞅瞅哈：Sethares, Kristen & Chin, Elizabeth. (2021). Age and gender differences in physical heart failure symptom clusters. Heart & Lung. 50. 832-837.
10.1016/j.hrtlng.2021.07.001.

今天就带大家看看像这种层次聚类的症状群如何做。

层次聚类的原理

Hierarchical clustering，层次聚类出来的结果就像一个树一样，一层一层地生长，这个树也是完全的数据驱动的，对于陌生领域的探索性研究，像症状群之类的就特别合适。

对于这个一个树，英文叫dendrogram，它怎么形成的呢，很自然地，我们可以让其通过从顶部往下散开这样的方式形成（方式1，英文叫Divisive），也可以让其从根部往上聚合这样的方式形成（方式2，英文叫Agglomerative）。

Divisive : A divisive method begins with all patterns in a single cluster and performs splitting until a stopping criterion is met.
Agglomerative : An agglomerative approach begins with each observation in a distinct (singleton) cluster, and successively merges clusters together until a stopping criterion is satisfied.

这儿我只给大家写方式2，因为这个比较常用，上面截图的文章也是用的方式2的聚类方法实现的。

方式2的基本思路就是：

先计算每一个类之间的距离
将最近距离的类合并
重复1，2直到所有类合并为1个类

上面的步骤走完，一个树就长出来了，直观的图示就是如下：

上图就是假设我们只有两个变量，9个个案（类），从左上角到右下角走完流程9个个案就成了一个类了。

步骤中有提到距离，这里面就涉及到一个距离的计算问题，计算的方法有很多种，本文也不展开，感兴趣的同学可以单独咨询我，常见的距离算法如下：

Centroid linkage
 Single linkage
 Complete linkage
 Average linkage
 Ward’s method

像截图的文章使用的方法就是Ward’s method。

层次聚类的做法

做从下到上层次聚类用到的函数是hclust()，hclust需要接受的参数是一个距离矩阵，大家直接在R中输入如下代码就可以体验出图的快乐了：

hc = hclust(dist(mtcars))

plot(hc)

在上面的代码中dist函数就是用来计算个案距离的函数的，在这一步的时候一定要将所有数值型变量标准化，不然聚类肯定是不对的，具体地大家可以在dist函数的参数中设定距离的计算方法，比如截图论文中就使用的Ward’s method，我们就可以设定为"ward.D"或者"ward.D2"。

但是我们发现此时聚类的对象依然是个案，其实我们想聚类的是症状，也就是我们数据库中的变量，还是用实际例子给大家说明吧。

比如我手上现在有如下形式的数据库，也就是大家会收集到的每个症状，每个症状都是一个变量，我们需要对变量进行聚类：

我想看看病人中这些个症状有哪些”症状群“，首先我需要将数据框及逆行转置，然后再进行聚类，我就可以写出代码如下：

data2 <- t(data2)

mycluster = hclust(dist(data2))

plot(mycluster )

运行代码后就可以出图啦：

其实到这儿大家就可以直观地看出来，应该是有2个症状群的，症状群1包括症状3和4，症状群2包括其余所有的症状，我们依然是将我们的图像论文中那样标注出来2个群：

就是说症状3和4为一个群，而其余的症状为一个群。

你还可以通过给不同症状群打上不同颜色的方式，进一步突出不同症状群，代码如下：

hc_dend_obj <- as.dendrogram(mycluster)

hc_col_dend <- color_branches(hc_dend_obj, h = 6)

plot(hc_col_dend,hang=-1)

还有一个很重要的问题，就是生成个案的症状群标签，只有有了症状群标签，我们才能像论文中那样去比较不同症状群个案的一般人口学特征，症状群标签可以通过如下代码得到：

hc = hclust(dist(scale(data2)))

cut_avg <- cutree(hc, k = 2)

data_cl <- mutate(data1, cluster = cut_avg)

运行上面的代码后我们再查看原来的数据库，就可以看到新生成的最后一列就是每一个个案是症状群类别。然后我们就可以比较不同症状群的个案在各种变量上的差异了，像这样一篇论文也就完成了。

最后要提醒大家的是，论文作者是用SPSS软件做的，大家也可以用SPSS尝试下哦，就在哪个分析-分类-系统聚类选项里面，我试了试也是完全可以做出来的。

小结

聚类结构和树结构的相互转换

为什么要转化聚类结构和树结构呢? 因为通过聚类,通过矩阵计算出来的树和基于进化距离做的树结构其实是相似的,借助于ggtree也好还是其他可用于树结构可视化的分析也罢,都可以进行很好的展示,所以在这里我 ...
OSCA单细胞数据分析笔记9—Clustering

对应原版教程第10章http://bioconductor.org/books/release/OSCA/overview.html "物以类聚,人以群分" 分群步骤即将基因表达( ...
R绘图笔记 | 热图绘制

关于绘图,前面介绍了一些: R绘图笔记 | 一般的散点图绘制 R绘图笔记 | 柱状图绘制 R绘图笔记 | 直方图和核密度估计图的绘制 R绘图笔记 | 二维散点图与统计直方图组合 R绘图笔记 | 散点分 ...
R语言使用灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

原文链接:http://tecdat.cn/?p=16881 灰色关联分析包括两个重要功能. 第一项功能:灰色关联度,与correlation系数相似,如果要评估某些单位,在使用此功能之前转置数据.第 ...
技术贴 | R语言——肠型分析：介绍、方法

导读 2011年,肠型(Enterotypes)的概念首次在<自然>杂志上由Arumugam等[1]提出,该研究发现可以将人类肠道微生物组分成稳定的3种类型,因为这3种类型不受年龄.性别. ...
r语言聚类分析：k-means和层次聚类

原文链接:http://tecdat.cn/?p=2981 聚类分析算法很多,比较经典的有k-means和层次聚类法. k-means聚类分析算法 k-means的k就是最终聚集的簇数,这个要你事先自 ...
R语言k-means聚类、层次聚类、主成分（PCA）降维及可视化分析鸢尾花iris数据集

原文链接:http://tecdat.cn/?p=22838 本练习问题包括:使用R中的鸢尾花数据集 (a)部分:k-means聚类使用k-means聚类法将数据集聚成2组. 画一个图来显示聚类的 ...
我从Science中，偷学到这个聚类分析技能！真舍不得分享

大家好,我是风.欢迎来到风风的从零开始单细胞系列.前面我们已经学习了数据下载.构建分析对象和数据质控.如果你的scater出现了一些警告内容,提示函数被替代,那也不用着急.正如其他内容一样,scate ...
R数据分析：孟德尔随机化分析文献解析和实例操练

文章的题目是A bidirectional Mendelian randomization study supports causal effects of kidney function on bl ...
R数据分析：一般线性回归的做法和解释

发现大家做分析做的最多的还是线性回归,很多人咨询的都是线性回归的问题,今天专门出一个线性回归的文章. 在R语言中我们可以非常方便地用基础包中的lm方法做出线性回归.参数的书写也和数学方程一样一样的Y~ ...
R数据分析：生存分析的做法和结果解释

今天给大家写写生存分析: Survival analysis corresponds to a set of statistical approaches used to investigate th ...
R数据分析：纵向数据如何做中介，交叉滞后中介模型介绍

看似小小的中介,废了我好多脑细胞,这个东西真的不简单,从7月份有人问我,我多重中介,到现在的纵向数据中介,从一般的回归做法,到结构方程框架下的路径分析法,到反事实框架做法,从中介变量和因变量到是连续变 ...
R数据分析：结构方程模型的分组比较，实例解析

做结构方程的时候分组比较用的比较多,咨询的同学也多,之前写过mplus的做法,今天就再给大家写个用R的,不论你是做中介还是做验证性因子分析,等等,反正用结构方程能做的都可以套这个方法,而且在R语言的l ...
R数据分析：如何用lavaan包做结构方程模型，实例解析

今天给大家写一个非常经典的结构方程模型的例子,这个例子是用来研究精神错乱的,模型总共有3个因子,一个社会经济地位SES,另外两个分别是1967年和1971年的精神错乱alien.每个因子两个测量指标, ...
R数据分析：广义估计方程式GEE的做法和解释

好久没有更新文章了,因为同学们咨询的问题有点多,另一个原因就是自己实在太懒.... 今天继续给大家写广义估计方程式GEE. In statistics, a generalized estimatin ...
R语言如何用潜类别混合效应模型（LCMM）分析抑郁症状

原文链接:http://tecdat.cn/?p=22206 模型背景每一个动态现象都可以用一个潜过程(Λ(t)来描述,这个潜过程在连续的时间t内演化.当对重复测量的标志变量进行建模时,我们通常不会 ...
R数据分析：潜增长模型LGM的做法和解释，及其与混合模型对比

今天收到了北京大学老师打来的电话,问我如果没有被数据科学方向的导师录取,愿不愿意去读生物统计的博士. 我婉拒了,些许遗憾,但不后悔,原因全是个人选择,读博挺好的,但是我决定换一种环境,去工作了. 从去 ...

R数据分析：如何用层次聚类分析做“症状群”，实例操练

层次聚类的原理

层次聚类的做法

小结

相关推荐