Python、R对小说进行文本挖掘和层次聚类可视化分析案例

2024-04-27 22:28:13

原文链接：http://tecdat.cn/?p=5673

《第二十二条军规》是美国作家约瑟夫·海勒创作的长篇小说，该小说以第二次世界大战为背景，通过对驻扎在地中海一个名叫皮亚诺扎岛（此岛为作者所虚构）上的美国空军飞行大队所发生的一系列事件的描写，揭示了一个非理性的、无秩序的、梦魇似的荒诞世界。我喜欢整本书中语言的创造性使用和荒谬人物的互动。本文对该小说进行文本挖掘和可视化。

数据集

该文有大约175,000个单词，分为42章。我在网上找到了这本书的原始文本版本。

我使用正则表达式和简单字符串匹配的组合在Python中解析文本。

我shiny在R中以交互方式可视化这些数据集。

地理图

geo<- catch22[( geo$Time > chapters[1]) & ( geo$Time < (chapters[2] + 1)),]paths_sub <- paths[( paths$time > chapters[1]) & ( paths$time < (chapters[2] + 1)),]

# 绘图p <- ggplot() + borders("world", colour="black", fill="lightyellow") +ylab(NULL) + xlab(NULL) +# 仅在有条件的情况下尝试绘制位置和路径if (nrow( geo_sub) != 0) {p + geom_point(data= geo_sub, aes(x = Lon, y = Lat), size=3, colour='red') +geom_point(data= paths_sub[1,], aes(x = lon, y = lat), size=3, colour='red') +geom_path(data= paths_sub, aes(x = lon, y = lat, alpha=alpha), size=.7,

可视化映射了整本书中提到的地中海周围位置。

人物章节关系

ggplot(catch22, aes(x=Chapter, y=Character, colour=cols)) +geom_point(size=size, shape='|', alpha=0.8) +scale_x_continuous(limits=c(chapters[1],(chapters[2] + 1)), expand=c(0,0), breaks=(1:42)+0.5, labels=labs) +ylab(NULL) + xlab('Chapter') +theme(axis.text.x = element_text(colour = "black", angle = 45, hjust = 1, vjust=1.03),axis.text.y = element_text(colour = "black"),axis.title.x = element_text(vjust=5),plot.title = element_text(vjust=1)) +

该图基本上代表了书中提到不同人物的序列。

我将数据绘制为标准散点图，章节为x轴（因为它与时间相似），人物为离散y轴。

人物共现矩阵

ggplot(coloca, aes(x=Character, y=variable, alpha=alpha)) +geom_tile(aes(fill=factor(cluster)), colour='white') +ylab(NULL) + xlab(NULL) +theme(axis.text.x = element_text(colour = "black", angle = 45, hjust = 1, vjust=1.03),axis.text.y = element_text(colour = "black"),axis.ticks.y = element_blank(),axis.ticks.x = element_blank(),panel.grid.minor = element_line(colour = "white", size = 1),panel.grid.major = element_blank()) +scale_fill_manual(values = cols, guide = FALSE) +scale_alpha_continuous(guide = FALSE)

用于构建此可视化的数据与前一个中使用的数据完全相同，但需要进行大量的转换。

聚类为此图添加了另一个维度。在整本书上应用层次聚类，以尝试在角色中找到社群。使用AGNES算法对字符进行聚类。对不同聚类方案进行人工检查发现最优聚类，因为更频繁出现的角色占主导地位最少。这是六个簇的树形图：

ag <- agnes(cat2[,-1], method="complete", stand=F)# 从树状图中切出聚类cluster <- cutree(ag, k=clusters)

应该注意，聚类是在整个文本上执行的，而不是章节。按聚类排序会将角色带入紧密的社区，让观众也可以看到角色之间的某些交互。

特色词

ggplot( pos2, aes(Chapter, normed, colour=Word, fill=Word)) +scale_color_brewer(type='qual', palette='Set1', guide = FALSE) +scale_fill_brewer(type='qual', palette='Set1') +scale_y_continuous(limits=c(0,y_max), expand=c(0,0)) +ylab('Relative Word Frequency') + xlab('Chapter') +

堆叠条形图更好地显示了单词所在的章节。

结论

我在这个过程中学到了很多东西，无论是在使用方面，还是在shiny。

ggplot2绘图学习径向柱形图

径向柱形图也被称为圆形柱形图或星图.这种图表使用同心圆网格来绘制条形图每个圆圈表示一个数值刻度,而径向分隔线(从中心延伸出来的线)则用作区分不同类别或间隔(如果是直方图).刻度上较低的数值通常由中心 ...
实用技术 | 如何用R绘制并填充相对正确的世界地图

近几年来,随着负笈海外特别是美国的政治学博士陆续学成回国,R逐渐在高校从事政治学量化研究的师生群体中流行起来,形成了与Stata并驾齐驱的局面.与需要付费购买才能使用的商业统计软件Stata不同,R可 ...
R绘图笔记 | GO-BP,GO-MF，GO-CC绘制在同一个柱状图中。

前面介绍过一些图形的绘制,我们有时候进行GO富集分析,需要绘制富集结果,这里介绍怎么将GO-BP,GO-MF,GO-CC绘制到同一图形中. library(ggplot2)library(RColor ...
R绘图笔记 | 柱状图绘制

R绘图笔记 | 柱状图绘制
填坑-2017年的主题调整专题（基础版）：大匠致巧，随R所图

title: "大匠致巧,随R所图"author: "wentao"date: "2020/12/23"output: html_docum ...
浸润性导管和小叶乳腺癌细胞的单细胞转录组异质性

考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏<100个单细胞转录组数据降维聚类分群图表复现>,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任 ...
你认为alpha多样性一定要用OTU来分析吗？

写在前面 alpha多样性主要包括三方面内容:多样性,丰富度和均匀度.就扩增子数据来说,大部分的文章都是使用OTU来做多样性分析.但是长期以来我们都知道,OTU多样性并不是真正的物种.最近看到一篇文章 ...
R语言绘制带有显著性字母标记的柱状图

新年快乐 Tao Wen 2019年1月6日引子想想看,人生不觉得过了好多,事情还是需要简单的做. library(tidyverse) library(agricolae) library ...
NMDS非度量多维尺度分析—基于微生物群落

今天,看到赖江山老师在博客中分享了vegan中的一些函数的中文帮助文件,翻译专业,可读性强,这本材料是我们熟悉vegan原理和提高内涵的有力学习途径.(末尾有彩蛋) 本文主要做NMDS分析并做一张完善 ...
R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化

原文链接: http://tecdat.cn/?p=20960 为了说明层次聚类技术和k-均值,我使用了了城市温度数据集,其中包括几个城市的月平均气温. 我们有15个城市,每月进行一次观测 boxpl ...
r语言聚类分析：k-means和层次聚类

原文链接:http://tecdat.cn/?p=2981 聚类分析算法很多,比较经典的有k-means和层次聚类法. k-means聚类分析算法 k-means的k就是最终聚集的簇数,这个要你事先自 ...
R语言数据可视化分析案例：探索BRFSS数据

原文链接:http://tecdat.cn/?p=9284 加载包 library(tidyr) library(knitr) opts_chunk$set(echo = TRUE, fig.alig ...
Python采集上市公司最新数据，并进行数据可视化分析！

Python采集上市公司最新数据，并进行数据可视化分析！
R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例

原文链接:http://tecdat.cn/?p=3186 本文显示了如何基于潜在的ARMA-GARCH过程(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR). 1 从ARMA-GARC ...
无穷的远方无数的人们都和我有关——读小说的五个层次

标签: 小说阅读祝福黑塞百年孤独舞会以后教育分类: 读书札记无穷的远方无数的人们都和我有关--读小说的五个层次读小说,我说的是好的小说,一般有这样五个层次. 第一个层次是故事的层面. ...
R语言k-means聚类、层次聚类、主成分（PCA）降维及可视化分析鸢尾花iris数据集

原文链接:http://tecdat.cn/?p=22838 本练习问题包括:使用R中的鸢尾花数据集 (a)部分:k-means聚类使用k-means聚类法将数据集聚成2组. 画一个图来显示聚类的 ...
「Python/R可视化」原创宝藏级学习资源

Python精进专栏(50+篇) Python可视化专栏(80+篇) R可视化专栏(40+篇) 统计学精进专栏生物信息/Perl专栏等阅读所有文章:点击
全了！！曼哈顿图样样式、方法大汇总(Python R)~

最近小编在后台看到有的小伙伴留言咨询曼哈顿图(Manhattan Plot) 的绘制方法,小编一开始也是比较不了解,奈何我又是一个宠读者的小编,这就汇总了曼哈顿图(Manhattan Plot) R和 ...

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

原文链接：http://tecdat.cn/?p=5673

﻿数据集

地理图

人物章节关系

人物共现矩阵

特色词

结论

相关推荐

数据集