文献计量学系列33: 关键词时间分布规律

导读
本期我们将介绍关键词随时间的变化。bibliometrix包中有一个时间相关的统计函数keywordGrowth。该函数可以统计每年关键词的出现的次数(词频)。很多与时间相关的分析均可从该函数开始。
<<<<<<<<<课程推荐>>>>>>>>>
R文献计量学基础篇已上线!

内容涵盖文档作者期刊研究机构国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松!

学习力,才是最大的竞争力!扫码约我吧!

<

一、keywordGrowth函数简介

keywordGrowth函数用于计算每年关键词或术语的词频次数或累加词频次数,结果返回一个数据框。

二、加载包和数据导入

pacman::p_load(bibliometrix, rio, tidyverse, Hmisc)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames(m1_TE) <- m1_TE$SR

三、关键词描述统计

关键词词频:

kwg <- KeywordGrowth(m1_TE, Tag = 'DE_TM', sep = ';', top = 10, cdf = FALSE)#提取累加词频排名前10的关键词的词频head(kwg)# Year CATCHMENT STABLE-ISOTOPE RUNOFF GROUNDWATER PRECIPITATION RUNOFF-GENERATION MODEL TRACER BASIN# 1 1991 1 0 1 0 0 2 1 1 0# 2 1992 1 0 2 0 0 0 0 0 0# 3 1993 3 0 3 4 0 1 1 0 1# 4 1994 2 0 1 1 1 2 2 0 0# 5 1995 2 0 3 2 1 2 1 0 1# 6 1996 3 0 2 3 0 1 1 2 0# RIVER# 1 0# 2 0# 3 0# 4 0# 5 0# 6 0#figurekwggather <- gather(kwg, key = 'keywords', value = 'Freq', -Year)#宽数据框转长数据框kwggather$Freq[which(kwggather$Freq == 0)] <- NA#频率为0变空值NAkwggather$Freq_min <- ifelse(kwggather$Freq >= 5, kwggather$Freq, NA)#最小展示频率kwggather$year1 <- ifelse(is.na(kwggather$Freq), NA, kwggather$Year)#添加线的x轴值kwggather$keywords <- factor(kwggather$keywords,levels = names(kwg)[-1])#字符格式转因子格式kwgth <- ggplot(kwggather, aes(x = Year, y = keywords))+ geom_line(aes(x = year1, y = keywords, group = keywords), size = 0.8, color="firebrick", alpha = 0.3)+ geom_point(aes(size = Freq),color = "dodgerblue4", alpha = 0.5)+ geom_text(aes(label = Freq_min), size = 3)+ scale_y_discrete(limits = rev(levels(kwggather$keywords)), labels = rev(unique(capitalize(tolower((kwggather$keywords))))))+ scale_x_continuous(limits = c(1991,2019),breaks = seq(1991,2019,1))+ labs(x = '', y = '', size = 'Frequency')+ theme_bw()+ theme(panel.grid = element_blank(), axis.text = element_text(size = 12), axis.text.x = element_text(angle = 90, vjust = 0.4), legend.text = element_text(size = 14), legend.title = element_text(size = 20))+ scale_size_continuous(breaks = seq(5,35,5))kwgth

关键词累加词频:

kwg1 <- KeywordGrowth(m1_TE, Tag = 'DE_TM', sep = ';', top = 10, cdf = TRUE)kwggather1 <- gather(kwg1, key = 'keywords', value = 'cumFreq', -Year)kwggather1$keywords <- capitalize(tolower(kwggather1$keywords))kwggather1$keywords <- factor(kwggather1$keywords,levels = capitalize(tolower(names(kwg1)))[-1])
kwgth1 <- ggplot(kwggather1, aes(x = Year, y = cumFreq, color = keywords))+ geom_line()+ scale_x_continuous(limits = c(1991,2019),breaks = seq(1991,2019,1))+ labs(x = '', y = 'Accumulative Frequency')+ theme(axis.title = element_text(size = 14), axis.text = element_text(size = 12), axis.text.x = element_text(angle = 90, vjust = 0.4), legend.text = element_text(size = 14), legend.title = element_text(size = 20))kwgth1

四、小结

keywordGrowth函数除了对关键词的进行分析外,还可以对其他的字段标识进行分析,比如作者(AU),国家(AU_CO)等,感兴趣的同学自己可以试一试。


(0)

相关推荐

  • 信息计量学|CiteSpace使用教程8---生成聚类标签

    5.6 生成聚类标签 为了表征识别聚类的性质.从特定聚类的标题.关键词.摘要中抽取名词短语. 点击 任意,从文献的标题.关键词.摘要中抽取名词短语,作为聚类标签. 至此最基本的文献共被引图谱生成.

  • 信息计量学|CiteSpace使用教程12---不同图谱的应用范围

    6.3 使用哪种图能展现哪种结果? 此部分仅介绍研究中常使用的几种图谱,对于WOS学科共现.相似度图谱等不做介绍. 文献共被引图谱 文献共被引 期刊共被引图谱 期刊共被引 作者共被引图谱 作者共被引图 ...

  • R语言 | 词频统计

    Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) stopwords <- readtext::readtext(& ...

  • (2条消息) 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  • 用R语言pie函数做饼图

    ggplot2不直接支持制作饼图,尚需先做柱形图再变换坐标轴才转换为饼图,比较繁琐.所以在R中做饼图,小兵先练习使用自带饼图函数pie()来实现. 案例数据源:雇员数据 请在本公众号后台回复关键词[雇 ...

  • R语言主题模型LDA评估公司面临的风险领域与可视化

    原文链接:http://tecdat.cn/?p=17996 介绍 随着越来越多的数据被数字化,获取信息变得越来越困难.我们在本文中重点关注的一个示例是评估公司面临的不同风险领域. 为此,我们参考公司 ...

  • 文献计量学系列34: 关键词共现网络与可视化

    一.加载包与导入数据 pacman::p_load(bibliometrix, rio)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames( ...

  • 文献计量学系列32: 关键词描述统计、词频分布和模式

    导读 本期我们将用清洗过的关键词数据进行描述统计分析.我们通过构建自定义函数,对关键词基本信息进行统计,比如关键词数量.关键词总词频和平均词频等.同时探索关键词词频分布,关键词数量与关键词词频模式. ...

  • 文献计量学系列30:关键词清洗与同/近义词合并2

    导读 系列29讲解了带有特殊符号的同/近义词合并过程.本期,我们将讲解bibliometrix包中关键词处理与清洗函数termExtraction,并改造该函数,尽可能地清洗关键词,使之符合数据分析要 ...

  • 文献计量学系列29:关键词中的同/近义词合并

    导读 系列27探索了如何把作者关键词(DE)和数据库添加关键词(ID)进行合并,并做简单的清洗.本期将介绍合并后的关键词中的同/近义词的合并,即用同一个词来表示所有意思相近的词.该过程需要一定的专业背 ...

  • 文献计量学系列40: 概念结构地图2

    导读 上一期我们讲解了术语概念结构的意思以及运用bibliometrix包中conceptualStucture函数来构建术语概念结构图,该函数中提供了三种方法分别是"MCA",& ...

  • 文献计量学系列39: 概念结构地图1

    读 首先,我们从新华字典和百度百科中查询概念结构(conceptualstructure)的含义与解释,从而帮助我们理解这个术语.新华字典:概念是反映对象的本质属性的思维形式:     结构有两种定义 ...

  • 文献计量学系列37: 不同时期主题分析

    导读 系列36我们讲解了主题战略坐标图的概念和制作方法.本系列我们将探索不同时期的主题战略坐标图,即结合时间切片函数timeslice,即将整个研究分为若干时间段,每个时间段作一个战略坐标图,从而探索 ...

  • 文献计量学系列36: 主题战略坐标图

    导读 战略坐标图是在主题聚类(关键词聚类)的基础上,对不同主题间的内外联系进行可视化,定量地评估特定领域不同主题的重要性和发展程度,探索特定领域的研究热点与前沿及其发展趋势. <<< ...

  • 我国家庭肠内营养研究文献计量学分析

    石磊,柳园,母东煜,廖欣怡 龚杰,胡雯,曾小庆,喻佳洁 四川大学华西医院 华西公共卫生学院 中国循证医学中心 目的:系统综述我国家庭肠内营养治疗研究进展,为我国家庭肠内营养研究和管理提供科学依据. 方 ...