文献计量学系列40: 概念结构地图2 / 开普饭

导读

上一期我们讲解了术语概念结构的意思以及运用bibliometrix包中conceptualStucture函数来构建术语概念结构图，该函数中提供了三种方法分别是“MCA”，“CA”和“MDS”。细心的朋友可能发现了更改conceptualStructure函数中labelsize参数，术语概念结构图的标签并没有变化，这是因为原函数封装的fviz_cluster函数并不是通过labelsize参数改变字体大小的，而是通过cex参数，Aria(此包的作者)已经修改了此bug，大家从github中下载最新的bibliometrix包，就能实现术语概念结构图标签字体大小了。上一期我们运用了默认方法，即“MCA”方法，本期将介绍“CA”和“MDS”的方法，并探索它们之间的差异。

<<<<<<<<<课程推荐>>>>>>>>>

R文献计量学基础篇已上线！

内容涵盖文档、作者、期刊、研究机构和国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松！

学习力，才是最大的竞争力！扫码约我吧！

一、加载包和导入数据

加载包和导入数据

pacman::p_load(bibliometrix, rio, tidyverse)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames(m1_TE) <- m1_TE$SRm1_TE$ID <- m1_TE$DE_TM

二、概念结构地图

上一期中聚类的数量是我们设定的，即分为3类，本期中聚类由函数内部算法自动构建，其原理是利用cutree函数对聚类树进行剪枝。聚类数量的确定：首先先用hclust函数对多元数据分析得到的点坐标进行聚类，然后用length函数确定聚类高度（height）数量有多少（假如为n），其次利用diff函数算聚类高度向量的滞后差分项（lagged differences），用which.max函数确定最大滞后差分项的位置（假如为m），那么聚类数量即为n-m+1，感兴趣的同学可以查询conceptualStucture函数的源代码，深入了解自动确定聚类数量的工作逻辑。

对应分析（CA）：

在系列39的基础上，更改method参数、clust和k.max参数。

CA <- conceptualStructure(M = m1_TE, field = 'ID', method = 'CA',#分析方法为对应分析 quali.supp = NULL, quanti.supp = NULL, minDegree = 20,#删除词频低于20的术语 clust = 'auto', k.max = 5,#自动选择聚类数量，但最大不超过5个分类 stemming = FALSE, labelsize = 10, documents = 5, graph = TRUE)

图1 术语概念地图—CA

图2 术语聚类树状图—CA

图3 贡献排名前5的文档因子图

图4 被引排名前5的文档因子图

多维标度法（MDS）：

MDS <- conceptualStructure(M = m1_TE, field = 'ID', method = 'MDS',#分析方法为多维标度方法 #quali.supp = NULL, quanti.supp = NULL, 此参数对MDS无用，去除 minDegree = 20,#删除词频低于20的术语 clust = 'auto', k.max = 5, #自动选择聚类数量，但最大不超过5个分类 stemming = FALSE, labelsize = 10, documents = 5, graph = TRUE)

图5 术语概念结构地图—MDS

图6 术语聚类树状图—MDS

对应分析（CA）和多维标度法（MDS）的得到的图与多重对应分析（MCA）得到的图解读类似，详细的请查看系列39。三种方法分析所得的结果存在一定差别，这是自然的，从本文的数据来看，三种结果都有相当高的可信度（猫仔结合自己的专业知识均能有较好的解读），在实际中，大家要根据自己的专业选择合适的方法。CA和MCA分析方法是差不多的，此两种方法与MDS存在差别。最大的差别是系列39我们所讲的，CA，MCA函数输入数据文档与术语矩阵，而MDS函数输入的数据是术语与术语共现矩阵，因此CA和MCA不仅能探索术语空间结构，也能探索文档空间结构，同时了解术语与文档的联系，而MDS只能展示术语的空间结构。

五、小结

本期我们运用了“CA”和“MDS”方法构建了术语概念地图，不同的方法得出的结果存在差异，大家可以根据实际需要选择合适的方法。至此，关键词和主题分析也将告一段落了。一直有朋友咨询网课是否还有“续集”，其实猫仔一直有这个计划，碍于时间有限，一直没有实施。因此，猫仔决定暂时停止更新文献计量系列，开始录制第二门网课“关键词与主题分析”，内容涵盖“精鼎统计”公众号所涉及的内容，另外还将增加其他的相关内容，使关键词和主题分析的方法更加丰富和多元化，敬请关注。与此同时，猫仔将深入学习引文分析，预计年后以引文分析为主题继续更新文献计量系列，也敬请期待。

过了腊八就是年，在此猫仔提前祝大家新年快乐！同时，猫仔在此也做个年终总结。2020-02-09至今，文献计量系列已经发布了44期推文，内容由浅及深，涉及了文献检索、下载和整理，文献计量相关的基础理论，研究实体计量分析（重要出版源）和关键词及概念结构分析。一年以来，为更好地向大家介绍如何用R语言做文献计量学分析，猫仔自己也学习了不少知识，不但R语言编程技能得到了加强，而且加深了对文献计量学的理解，同时还掌握了许多统计学的知识，在此感谢“精鼎统计”平台和大家的支持，没有你们的支持，我亦不可能如此之快地成长起来。这些知识的加深也让猫仔明确了未来发展方向，找到了新的工作。年后，猫仔将从生态学领域转战信息计量学领域，届时希望能有更多时间与大家一同学习，相互分享更多的有关信息或文献计量学的知识，一同挖掘文献中蕴含的知识。

文献计量学系列40: 概念结构地图2

加载包和导入数据

多维标度法（MDS）：

相关推荐