文献计量学系列33: 关键词时间分布规律

2024-06-23 15:20:48

导读

本期我们将介绍关键词随时间的变化。bibliometrix包中有一个时间相关的统计函数keywordGrowth。该函数可以统计每年关键词的出现的次数（词频）。很多与时间相关的分析均可从该函数开始。

<<<<<<<<<课程推荐>>>>>>>>>

R文献计量学基础篇已上线！

内容涵盖文档、作者、期刊、研究机构和国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松！

学习力，才是最大的竞争力！扫码约我吧！

一、keywordGrowth函数简介

keywordGrowth函数用于计算每年关键词或术语的词频次数或累加词频次数，结果返回一个数据框。

二、加载包和数据导入

pacman::p_load(bibliometrix, rio, tidyverse, Hmisc)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames(m1_TE) <- m1_TE$SR

三、关键词描述统计

关键词词频：

kwg <- KeywordGrowth(m1_TE, Tag = 'DE_TM', sep = ';', top = 10, cdf = FALSE)#提取累加词频排名前10的关键词的词频

head(kwg)# Year CATCHMENT STABLE-ISOTOPE RUNOFF GROUNDWATER PRECIPITATION RUNOFF-GENERATION MODEL TRACER BASIN# 1 1991 1 0 1 0 0 2 1 1 0# 2 1992 1 0 2 0 0 0 0 0 0# 3 1993 3 0 3 4 0 1 1 0 1# 4 1994 2 0 1 1 1 2 2 0 0# 5 1995 2 0 3 2 1 2 1 0 1# 6 1996 3 0 2 3 0 1 1 2 0# RIVER# 1 0# 2 0# 3 0# 4 0# 5 0# 6 0#figurekwggather <- gather(kwg, key = 'keywords', value = 'Freq', -Year)#宽数据框转长数据框kwggather$Freq[which(kwggather$Freq == 0)] <- NA#频率为0变空值NAkwggather$Freq_min <- ifelse(kwggather$Freq >= 5, kwggather$Freq, NA)#最小展示频率kwggather$year1 <- ifelse(is.na(kwggather$Freq), NA, kwggather$Year)#添加线的x轴值kwggather$keywords <- factor(kwggather$keywords,levels = names(kwg)[-1])#字符格式转因子格式kwgth <- ggplot(kwggather, aes(x = Year, y = keywords))+ geom_line(aes(x = year1, y = keywords, group = keywords), size = 0.8, color="firebrick", alpha = 0.3)+ geom_point(aes(size = Freq),color = "dodgerblue4", alpha = 0.5)+ geom_text(aes(label = Freq_min), size = 3)+ scale_y_discrete(limits = rev(levels(kwggather$keywords)), labels = rev(unique(capitalize(tolower((kwggather$keywords))))))+ scale_x_continuous(limits = c(1991,2019),breaks = seq(1991,2019,1))+ labs(x = '', y = '', size = 'Frequency')+ theme_bw()+ theme(panel.grid = element_blank(), axis.text = element_text(size = 12), axis.text.x = element_text(angle = 90, vjust = 0.4), legend.text = element_text(size = 14), legend.title = element_text(size = 20))+ scale_size_continuous(breaks = seq(5,35,5))kwgth

关键词累加词频：

kwg1 <- KeywordGrowth(m1_TE, Tag = 'DE_TM', sep = ';', top = 10, cdf = TRUE)kwggather1 <- gather(kwg1, key = 'keywords', value = 'cumFreq', -Year)kwggather1$keywords <- capitalize(tolower(kwggather1$keywords))kwggather1$keywords <- factor(kwggather1$keywords,levels = capitalize(tolower(names(kwg1)))[-1])

kwgth1 <- ggplot(kwggather1, aes(x = Year, y = cumFreq, color = keywords))+ geom_line()+ scale_x_continuous(limits = c(1991,2019),breaks = seq(1991,2019,1))+ labs(x = '', y = 'Accumulative Frequency')+ theme(axis.title = element_text(size = 14), axis.text = element_text(size = 12), axis.text.x = element_text(angle = 90, vjust = 0.4), legend.text = element_text(size = 14), legend.title = element_text(size = 20))kwgth1

四、小结

keywordGrowth函数除了对关键词的进行分析外，还可以对其他的字段标识进行分析，比如作者（AU），国家（AU_CO）等，感兴趣的同学自己可以试一试。

信息计量学|CiteSpace使用教程8---生成聚类标签

5.6 生成聚类标签为了表征识别聚类的性质.从特定聚类的标题.关键词.摘要中抽取名词短语. 点击任意,从文献的标题.关键词.摘要中抽取名词短语,作为聚类标签. 至此最基本的文献共被引图谱生成.
信息计量学|CiteSpace使用教程12---不同图谱的应用范围

6.3 使用哪种图能展现哪种结果? 此部分仅介绍研究中常使用的几种图谱,对于WOS学科共现.相似度图谱等不做介绍. 文献共被引图谱文献共被引期刊共被引图谱期刊共被引作者共被引图谱作者共被引图 ...
R语言 | 词频统计

Python网络爬虫与文本数据分析本章内容导入停用词读数据,分词剔除停用词导入停用词表 library(dplyr) stopwords <- readtext::readtext(& ...
(2条消息) 基于python中jieba包的中文分词中详细使用（一）

文章目录基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...
用R语言pie函数做饼图

ggplot2不直接支持制作饼图,尚需先做柱形图再变换坐标轴才转换为饼图,比较繁琐.所以在R中做饼图,小兵先练习使用自带饼图函数pie()来实现. 案例数据源:雇员数据请在本公众号后台回复关键词[雇 ...
R语言主题模型LDA评估公司面临的风险领域与可视化

原文链接:http://tecdat.cn/?p=17996 介绍随着越来越多的数据被数字化,获取信息变得越来越困难.我们在本文中重点关注的一个示例是评估公司面临的不同风险领域. 为此,我们参考公司 ...
文献计量学系列34: 关键词共现网络与可视化

一.加载包与导入数据 pacman::p_load(bibliometrix, rio)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames( ...
文献计量学系列32: 关键词描述统计、词频分布和模式

导读本期我们将用清洗过的关键词数据进行描述统计分析.我们通过构建自定义函数,对关键词基本信息进行统计,比如关键词数量.关键词总词频和平均词频等.同时探索关键词词频分布,关键词数量与关键词词频模式. ...
文献计量学系列30:关键词清洗与同/近义词合并2

导读系列29讲解了带有特殊符号的同/近义词合并过程.本期,我们将讲解bibliometrix包中关键词处理与清洗函数termExtraction,并改造该函数,尽可能地清洗关键词,使之符合数据分析要 ...
文献计量学系列29:关键词中的同/近义词合并

导读系列27探索了如何把作者关键词(DE)和数据库添加关键词(ID)进行合并,并做简单的清洗.本期将介绍合并后的关键词中的同/近义词的合并,即用同一个词来表示所有意思相近的词.该过程需要一定的专业背 ...
文献计量学系列40: 概念结构地图2

导读上一期我们讲解了术语概念结构的意思以及运用bibliometrix包中conceptualStucture函数来构建术语概念结构图,该函数中提供了三种方法分别是"MCA",& ...
文献计量学系列39: 概念结构地图1

读首先,我们从新华字典和百度百科中查询概念结构(conceptualstructure)的含义与解释,从而帮助我们理解这个术语.新华字典:概念是反映对象的本质属性的思维形式: 结构有两种定义 ...
文献计量学系列37: 不同时期主题分析

导读系列36我们讲解了主题战略坐标图的概念和制作方法.本系列我们将探索不同时期的主题战略坐标图,即结合时间切片函数timeslice,即将整个研究分为若干时间段,每个时间段作一个战略坐标图,从而探索 ...
文献计量学系列36: 主题战略坐标图

导读战略坐标图是在主题聚类(关键词聚类)的基础上,对不同主题间的内外联系进行可视化,定量地评估特定领域不同主题的重要性和发展程度,探索特定领域的研究热点与前沿及其发展趋势. <<< ...
我国家庭肠内营养研究文献计量学分析

石磊,柳园,母东煜,廖欣怡龚杰,胡雯,曾小庆,喻佳洁四川大学华西医院华西公共卫生学院中国循证医学中心目的:系统综述我国家庭肠内营养治疗研究进展,为我国家庭肠内营养研究和管理提供科学依据. 方 ...

文献计量学系列33: 关键词时间分布规律

关键词词频：

关键词累加词频：

相关推荐