文献计量学系列39: 概念结构地图1

首先,我们从新华字典和百度百科中查询概念结构(conceptualstructure)的含义与解释,从而帮助我们理解这个术语。新华字典:概念是反映对象的本质属性的思维形式;
结构有两种定义:1)各个组成部分的搭配和排列,2)建筑物上承担重力或外力的部分构造。概念结构的“结构”应该是第一种意思。例如我们称“水”为无色无味无臭的液体,则“无色”、“无味”、“无臭”和“液体”等词语为“水”的本质属性,它们的排列形式则构成了“水”这个概念的结构。
在百度百科中:概念结构指的是概念的内部组织,即概念由哪些因素构成以及这些因素之间的关系。据此,我们认为通过文献计量分析和文本挖掘技术从特定学科的科技文献分析得到的概念结构指示的是该学科的知识由哪些主要的术语构成,以及术语之间的关系,文献之间的关系和文献与术语之间的关系(猫仔个人理解,如有不对之处,欢迎指正)。
如何用图的方式展示概念结构是我们本系列的话题,即概念结构地图。在bibliometrix包中conceptualStructure函数即可绘制术语的概念结构地图,其主要原理是对数据进行降维处理,并在2维图中展示结果。
<<<<<<<<<课程推荐>>>>>>>>>
R文献计量学基础篇已上线!

内容涵盖文档作者期刊研究机构国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松!

学习力,才是最大的竞争力!扫码约我吧!

<

一、conceptualStructure函数简介

conceptualStructure函数封装了多个函数,其降维技术有3种,分别为对应分析(Correspondence Analysis, CA),多重对应分析(Multiple Correspondence Analysis, CA),和多维标度法(Multidimensional Scaling, MDS),其中CA和MCA是封装了FactoMineR包中的CA和MCA函数,MDS是封装了基础包stats中的cmdscale函数。该函数还使用的hclust对术语进行了层次聚类,其中聚类的数量可以选择,同时该函数还封装了factoextra包的多个可视化上述多元统计分析结果的函数。猫仔我为了更好地、准确地向大家介绍conceptualStructure函数,也是花了不少时间,高强度地学习了下这些个封装的方法和包,理解不到位的地方请大家批评指正,谢谢。conceptualStructure函数工作的逻辑如下图。

图1 conceptualStructure函数运行逻辑

conceptualStructure函数参数和返回值见表1。

表1 conceptualStructure函数参数与返回值

二、MCA方法的术语概念结构地图与解读

pacman::p_load(bibliometrix, rio, tidyverse)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames(m1_TE) <- m1_TE$SRm1_TE$ID <- m1_TE$DE_TMIDfreq <- tableTag(m1_TE, Tag = 'ID', sep = ';') %>% as.data.frame()#词频统计IDfreq[50,]#排名第50的术语和词频# Tab Freq# 50 PREFERENTIAL-FLOW 20#术语概念结构地图CS <- conceptualStructure(M = m1_TE, field = 'ID', method = 'MCA',#分析方法为多重对应分析 quali.supp = NULL, quanti.supp = NULL, minDegree = 20, #删除词频低于20的术语 clust = 3, k.max = 3,#聚类数量为3 stemming = FALSE, labelsize = 10, documents = 5, graph = TRUE)
图2 词频排名前50的术语概念结构地图。不同分类中间的点(不同的颜色和形状的点)坐标分别是不同分类的术语的dim1和dim2均值
图2是通过FactoMineR包的MCA函数多重对应分析结果,取术语的dim1 和 dim2组成新数据df;然后hclust函数对dist(df)(术语的欧式距离)聚类,获得术语聚类;最后通过factoextra中fviz_cluster函数将聚类可视化,但是图1的x和y的坐标是MCA分析所得dim1 和dim2,括号里的数值是特征值累加百分比。因此,该图是术语的聚类与MCA分析组合图。术语MCA分析的可视化表示可以定性地根据术语间的距离判断不同术语的相似性,那么聚类在此的作用就是让术语的这种相似性更加明了,很明显,图2显示排名前50的术语可分为3类,同一类的术语相似性较大,可能代表了一个主题,解读该主题需要一定的领域内知识或者请教专家。

图3 术语层次聚类树状图

图3是我们常见的层次聚类树状图,就不多解释了。
图4 贡献排名前5的文档因子图
图4展示了不同术语聚类下相关的文档,且文档对术语概念结构的贡献排名靠前,该结果是储存在返回值的docCoord中。文档的x,y坐标由MCA分析所得,不同分类的文档颜色同术语分类颜色,位置也相对靠近相应分类的术语。这些文章可认为是相应分类(主题)的代表性文章。
图5 被引排名1前5的文档因子图
该图与图4类似,只是文档变成了被引最高的文献了。

五、小结

本期较为详细地介绍了概念结构地图的含义以及concepturalStructure函数的工作逻辑,并以多重对应分析(MCA)方法为例介绍了通过concepturalStructure函数获取术语概念结构地图,并对输出的4图进行了解读,输出结果中还有一些其他的重要的信息,大家可以自行探索。concepturalStructure函数封装了许多函数,被封装的函数的很多参数都是固定的,不能更改,所以concepturalStructure函数得到的结果及其解读的效果可能与大家预想的结果不太一致,这可能需要结合专家知识进行解读,或者修改封装函数的参数以获得最好的结果。下一期我们将探索对应分析(CA)和多维标度法(MDS)算法。

(0)

相关推荐

  • 信息计量学|CiteSpace使用教程8---生成聚类标签

    5.6 生成聚类标签 为了表征识别聚类的性质.从特定聚类的标题.关键词.摘要中抽取名词短语. 点击 任意,从文献的标题.关键词.摘要中抽取名词短语,作为聚类标签. 至此最基本的文献共被引图谱生成.

  • 信息计量学|CiteSpace使用教程14

    8. 聚类标签的提取用哪个来源和算法 citespace在聚类标签的提取上提供了三种标签来源:标题.关键词.摘要:提供了三种标签提取算法LSI/LLR/MI 8.1 算法谁更好? 下面用web of ...

  • 《研究前沿》的“启发”价值在哪里

    中科院多家单位已连续6年共同发布<研究前沿>报告,报告遴选出较为活跃或发展迅速的热点前沿和新兴前沿-- <研究前沿>的"启发"价值在哪里 光明日报记者 齐芳 ...

  • 信息计量学|CiteSpace使用教程6

    5.4 生成聚类图谱 点击 进行自动聚类过程. 依据谱聚类(基于图论的一种算法)对共引网络这种基于连接关系而不是节点属性的聚类具有天然的优势.可以对任意形状的样本空间进行聚类,且收敛于全局最优解. 网 ...

  • 文献计量学系列40: 概念结构地图2

    导读 上一期我们讲解了术语概念结构的意思以及运用bibliometrix包中conceptualStucture函数来构建术语概念结构图,该函数中提供了三种方法分别是"MCA",& ...

  • 文献计量学系列37: 不同时期主题分析

    导读 系列36我们讲解了主题战略坐标图的概念和制作方法.本系列我们将探索不同时期的主题战略坐标图,即结合时间切片函数timeslice,即将整个研究分为若干时间段,每个时间段作一个战略坐标图,从而探索 ...

  • 文献计量学系列36: 主题战略坐标图

    导读 战略坐标图是在主题聚类(关键词聚类)的基础上,对不同主题间的内外联系进行可视化,定量地评估特定领域不同主题的重要性和发展程度,探索特定领域的研究热点与前沿及其发展趋势. <<< ...

  • 文献计量学系列34: 关键词共现网络与可视化

    一.加载包与导入数据 pacman::p_load(bibliometrix, rio)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames( ...

  • 文献计量学系列33: 关键词时间分布规律

    导读 本期我们将介绍关键词随时间的变化.bibliometrix包中有一个时间相关的统计函数keywordGrowth.该函数可以统计每年关键词的出现的次数(词频).很多与时间相关的分析均可从该函数开 ...

  • 文献计量学系列32: 关键词描述统计、词频分布和模式

    导读 本期我们将用清洗过的关键词数据进行描述统计分析.我们通过构建自定义函数,对关键词基本信息进行统计,比如关键词数量.关键词总词频和平均词频等.同时探索关键词词频分布,关键词数量与关键词词频模式. ...

  • 文献计量学系列30:关键词清洗与同/近义词合并2

    导读 系列29讲解了带有特殊符号的同/近义词合并过程.本期,我们将讲解bibliometrix包中关键词处理与清洗函数termExtraction,并改造该函数,尽可能地清洗关键词,使之符合数据分析要 ...

  • 文献计量学系列29:关键词中的同/近义词合并

    导读 系列27探索了如何把作者关键词(DE)和数据库添加关键词(ID)进行合并,并做简单的清洗.本期将介绍合并后的关键词中的同/近义词的合并,即用同一个词来表示所有意思相近的词.该过程需要一定的专业背 ...

  • 我国家庭肠内营养研究文献计量学分析

    石磊,柳园,母东煜,廖欣怡 龚杰,胡雯,曾小庆,喻佳洁 四川大学华西医院 华西公共卫生学院 中国循证医学中心 目的:系统综述我国家庭肠内营养治疗研究进展,为我国家庭肠内营养研究和管理提供科学依据. 方 ...