01基于位置的用户画像初探|数据爬取及可视化系列

研究了1个月的nodejs爬虫,数据提取,mongodb数据库,数据可视化等等内容,我终于写了第一篇关于数据的文章,哈~

这个系列的文章会从:

技能

数据来源

数据可视化的套路

交互设计

等方面进行更新

今天首发的是系列文章:关于数据爬取及可视化

第一篇|基于位置的用户画像初探

第一篇先谈谈总的思路,及尝试一些数据研究的方法。


第一个练手的研究内容,我选取了最近魔都热门的一个餐厅:

Mr Nice好好先生餐厅


爆红的拿破仑领军西餐甜品店,打遍上海无敌手,高大上,低调奢,新店开了不少,菜品依然创意无限。梦幻摩天轮拿破仑,真是味蕾视觉双享受!意式奶冻,草莓冻膏,口感馥郁柔滑。还有食肉控最爱的猪肋排拼盘,更多应季而变的创意菜品俘获一众吃货的心。

   数据来源:


前几天发现百度指数蛮好用的,直接输入关键字就可以得到相关的数据,都是基于网民的搜索行为的。

百度指数http://index.baidu.com/

但是百度还没有收录,当然我也没到要去购买的程度,仅仅是研究啊哈~

所以主要从大众点评上获取数据。

大众点评的点评大数据http://dpindex.dianping.com/dpindex

   相关指数:


先看看人气指数:

最近30天,人气不足啊,主题餐厅是不是都这样?火爆一阵子,没有持久度。

价格还是算亲民的。

商户风云榜上,6家分店排在首位啊~

  研究目标


那么,位于商户风云榜首,到底是什么人喜欢到这种餐厅呢?

我决定研究下到过该餐厅消费过的用户,我设定了简单的2个目标:

  • 某个用户的活动范围有多广?

  • 某个用户是在周末活动多一点,还是工作日比较多?

对研究目标的补充说明:

我选择的是是什么的角度,而不是探讨原因的为什么角度,做大数据研究,需要转变下思维,从“为什么”“是什么”

我们没有必要,也不太可能从数据中知道为什么,因为世间万物的关系太复杂了,其实知道”是什么“就够了,要解读数据,让数据自己”发声“告诉我们正在发生的现象。

有一个典型的例子:

沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。

看到这里,马上有人问”为什么飓风一来,人们都要买蛋挞“?

这个“为什么”,可能是极难分析、且复杂的,而且即便研究出来,意义真的很大吗?对沃尔玛来说,只要知道“飓风来了,快摆蛋挞,准备大赚一笔”就行了,这就是注重的相关关系。

   研究思路:


  1. 拉取商户的用户列表,获取用户的页面

  2. 提取用户标签,及评论过的地点日期

  3. 假设评论发表时,用户正在该地点活动

  4. 从标签,我们可以看出,Mr Nice好好先生餐厅的顾客们的其他爱好是什么

  5. 通过,用户点评过的地点,以及发表评论的时间,了解他们的行为习惯

   数据收集及可视化


点评网并没有直接的展示用户的位置轨迹,于是需要我们自己动手去搜集数据,处理数据,下面是通过编程实现的思路。

  1. casperjs爬取商户的所有评论页面

  2. 通过nodejs中的cheerio解析网页提取用户id

  3. 根据用户id爬取用户的所有点评地点的经纬度信息,及日期

  4. 通过百度地图,显示用户去过的地点,并用echart展示了下活动在一周中的分布情况。

关于casperjs、nodejs、echart相关的技术使用心得,将在另一篇文章中总结。

下图是商户的评论页,有10669条评论,手动去收集肯定是不现实的啊,本次采用了casperjs来抓取~

将从上面这一页获取的用户id清单,爬取每一用户的点评信息,如下图所示。

这个也是数据量比较大,全交给电脑去自动获取啦~然后存进数据库里,这里选择了mongodb数据库,配合express,还有前端展示,边研究边处理。

   研究所得


讲了这么多理论的废话,下面进入正题哈:

本次爬取了一点点用户的数据,作为研究,因为我还不知道到底可能得出什么样的结论,所以得一步步来,试试用这些数据能不能得出一些有意思的结论。然后再决定是否大量爬取。

抽取一个光顾过MrNice餐厅的

用户A的数据看看,看来用户A是典型的吃货。


她曾在北京出差或者旅游

在上海主要在浦西活动~

普陀的频率比较高

习惯在礼拜一活动,

结合上图,估计她在普陀区上班

关于上图的解释,红圈圈越大表示发表点评的频率越高,从左到右分别为星期天,星期一,星期二……星期六

用户B的故事


用户标签:

B也是个爱吃的人~

主要是在礼拜一跟二活动,

上班了跟同事聚餐吗?

在长三角活动,

结合时间来看,出差的可能性大一点~

用户C


已婚了哈,标签里有结婚项。

去过成都,还有上海的周边也去了不少。

典型的在周末活动。

平时下班大多数是直接回家的。

我觉得C是个男的

用户D,爱吃爱玩啊


用户标签:

这个厉害,去过不少地方旅游,旅行主要还是吃吃吃

再看看其他用户。


大致有2类人,一类是大多数在上海活动,我感觉浦西的美食比浦东多哈~

第二类是,喜欢旅行的~数据足够多的话,可以看出哪几个地点比较热门。

以上是一点点研究的所得,也许是大众点评早期是美食点评起家的,用户想起美食就跑点评了,所以用户标签的美食占比会比较多?

接下来我会加大数据的数量,对用户标签再细致研究,还有完善思路,进行更丰富的研究。


设计+科技=

自在园O设计Mix科技实验室。

(0)

相关推荐