R语言NLP案例：LDA主题文本挖掘优惠券推荐网站数据

2024-06-14 16:07:21

原文链接：http://tecdat.cn/?p=12203

介绍

Groupon是一个优惠券推荐服务，您可以免费注册Groupon，并且Groupon每天都会向您发送包含该地区当天交易的电子邮件。如果您喜欢这笔交易，那么您可以立即从Groupon购买，并在餐馆/商店兑换。

数据

这些数据是从Groupon网站的纽约市区域获得的。网站外观如下所示：

两个页面的布局都不是动态的，所以建立了一个自定义scrapy，以便快速浏览所有的页面并检索要分析的信息。然而，评论，重要的信息，通过Java呈现和加载，因此硒是使用的脚本。Selenium脚本使用从scrapy获取的groupons的URL，实质上模仿了人类点击用户注释部分中的“next”按钮。

从每个组中检索的数据如下所示。

Groupon标题

分类信息

交易位置

总评分数

作者日期

评论网址

print(all_groupon_reviews[all_groupon_reviews.content.apply(lambda x: isinstance(x, float))])indx = [10096]all_groupon_reviews.content.iloc[indx] author date content \10096 Patricia D. 2017-02-15 NaN 15846 Pat H. 2016-09-24 NaN 19595 Tova F. 2012-12-20 NaN 40328 Phyllis H. 2015-06-28 NaN 80140 Andre A. 2013-03-26 NaN url year month day 10096 https://www.groupon.com/deals/statler-grill-9 2017 2 15 15846 https://www.groupon.com/deals/impark-3 2016 9 24 19595 https://www.groupon.com/deals/hair-bar-nyc-1 2012 12 20 40328 https://www.groupon.com/deals/kumo-sushi-1 2015 6 28 80140 https://www.groupon.com/deals/woodburybus-com 2013 3 26

探索性数据分析

一个有趣的发现是在过去的几年里，群体的使用已经大大增加了。我们通过检查评论提供的日期来发现这一点。看下面的图像，其中x轴表示月/年和y轴，表示计数，这个结论变得明显。最后的小幅下滑是由于当时的一些小组可能是季节性的。

pie_chart_df = Groupons.groupby('categories').agg('count') plt.rcParams['figure.figsize'] = (8,8) sizes = list(pie_chart_df.mini_info)labels = pie_chart_df.indexplt.pie(sizes, shadow=True, labels = labels, autopct='%1.1f%%', startangle=140)# plt.legend(labels, loc="best")plt.axis('equal')

最后，导出了一个正则表达式来解析价格信息，以及它们提供的交易数量。该信息显示在以下条形图中：

最后，利用用户评论数据生成一个文字云：

主题建模

创建一个语料库的第一步是删除所有停用词。最后创造trigrams。

选择的模型是Latent Dirichlet Allocation，因为它能够区分来自不同文档的主题，并且存在一个可以清晰有效地将结果可视化的包。由于该方法是无监督的，因此必须事先选择主题数量，在模型的25次连续迭代中最优数目为3。结果如下：

上面的可视化是将主题投影到两个组件上，其中相似的主题会更接近，而不相似的主题会更远。右边的单词是组成每个主题的单词，

结论

主题建模是无监督学习的一种形式，这个项目的范围是在基础词语背后发现模型。

Python开发在北京的就业现状分析

Python开发在北京的就业现状分析宇亮 Python中文社区 2018-12-26 相信各位同学多多少少在拉钩上投过简历,今天突然想了解一下北京Python开发的薪资水平.招聘要求.福利待遇以及公 ...
第94天：数据分析之 pandas 初步

pandas是一个常用的第三方 Python 库,提供快速灵活的数据处理功能,也是进行数据分析的有力工具.我们的口号是:"更快,更高,更强"(皮一下).啊,当然,现在经常有很多库一 ...
Pingouin: 基于pandas和numpy的统计包

Python网络爬虫与文本数据分析 pingouin是基于Pandas和numpy开发的Python3统计包.主要统计功能有方差分析多元线性回归中介效应分析卡方检验Q-Q图贝叶斯因子信效度检验等等我是 ...
25000字玩转 Pandas，这一篇给力了！

作者:Ma Sizhou https://blog.csdn.net/weixin_45901519/article/details/112980822 1.Pandas数据结构 2008年WesMc ...
一起学习Python常用模块——pandas

作者介绍 @王多鱼百度的一名推荐算法攻城狮. 主要负责推荐的召回和排序模型的优化工作. 1 前言 Pandas 是Python的一个数据分析包,它是为了解决数据分析任务而创建的.Pandas 纳入了 ...
译】Python 金融：算法交易（2）常见的金融分析方法

2019-04-16 16:41:14 本文翻译自2018年最热门的Python金融教程 Python For Finance: Algorithmic Trading. 本教程由以下五部分内容构成: ...
python-13-pandas的常用操作

皮皮冰燃 2020-10-22 17:49:19 56 收藏分类专栏: python3 文章标签: python 版权 (1)获取数据 (2)数据处理:处理缺失数据,可视化 (3)特征工程 (4)算 ...
JavaScript连载6-转化为Number和Boolean类型、运算符

一.承接连载5 1.注意事项对于非String使用parseInt()或parseFloat(),会先将其转换为String类型在进行操作. var s1 = false; var s2 = par ...
R语言对NASA元数据进行文本挖掘的主题建模分析

原文链接:http://tecdat.cn/?p=9424 目录什么是主题建模? 获取和整理NASA元数据制作DocumentTermMatrix LDA主题建模探索建模每个文档都属于哪个主题 ...
R语言用向量自回归（VAR）进行经济数据脉冲响应研究分析

原文链接:http://tecdat.cn/?p=9368 自从Sims(1980)发表开创性的论文以来,向量自回归模型已经成为宏观经济研究中的关键工具.这篇文章介绍了VAR分析的基本概念,并指导了简 ...
R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

原文链接:http://tecdat.cn/?p=22732 关联规则挖掘是一种无监督的学习方法,从交易数据中挖掘规则.它有助于找出数据集中的关系和一起出现的项目.在这篇文章中,我将解释如何在R中提取 ...
R语言广义相加模型 (GAMs)分析预测CO2时间序列数据

原文链接:http://tecdat.cn/?p=20904 环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述. 这基本上就是具有光滑函数的广义线性模型(GLM)的扩展 ...
R语言社区主题检测算法应用案例

原文链接:http://tecdat.cn/?p=5658 使用R检测相关主题的社区创建主题网络我通过分析抽象文本和共同作者社交网络来研究社会科学.计算机和信息学方面的出版物. 我遇到的一个问题是 ...
R语言主题模型LDA评估公司面临的风险领域与可视化

原文链接:http://tecdat.cn/?p=17996 介绍随着越来越多的数据被数字化,获取信息变得越来越困难.我们在本文中重点关注的一个示例是评估公司面临的不同风险领域. 为此,我们参考公司 ...
R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

原文:http://tecdat.cn/?p=3897 文本分析:主题建模 library(tidyverse)theme_set( theme_bw()) 目标定义主题建模解释Latent Di ...
R语言配对检验分析案例

原文链接 :http://tecdat.cn/?p=3424 什么是检验对? 检验对的形式 (x1,x2) 出现在两种情况中: 对同一实体执行两次测量.例如,一项评估新型胰岛素疗效的临床研究将为每位患 ...
R语言线性混合效应模型实战案例

原文链接:http://tecdat.cn/?p=3015 介绍首先,请注意,围绕多层次模型的术语有很大的不一致性.例如,多层次模型本身可能被称为分层线性模型.随机效应模型.多层次模型.随机截距模型 ...

R语言NLP案例：LDA主题文本挖掘优惠券推荐网站数据

原文链接：http://tecdat.cn/?p=12203

介绍

数据

探索性数据分析

主题建模

结论

相关推荐