用python爬虫追踪知乎/B站大V排行
最近,我们的实训生清风小筑在学习和实践 python 的数据分析,前几周把知乎、B站、虎扑上的各种信息都抓了个遍,比如粉丝数、关注关系、发布时间、阅读量、回复数、标题关键字、地域分布……然后又对这些数据进行了整理,将数据通过各类图表进行可视化,进而分析出诸如:用户最喜欢在什么时候刷贴、什么样的标题更容易被点击、哪个地区的用户最喜欢评论、哪个UP主最勤奋等等。这几个案例和分析报告已经在整理中,接下来会陆续给大家分享。
今天要给大家看的,是在数据分析过程中产出的一个副产品:
知乎/B站的Top100大V排行
这个排行不是一次性的结果,而是每周更新的。所以从这个上面还可以显示出榜上大V一周来的用户增长和排名变化情况。
网址/源码/文档见文末
微博早期是有一个“粉丝数排行榜”的,可以看到谁的被关注数最多,现在好像已经取消了。像知乎、B站这种以内容为核心的网站,官方没有提供这样的榜单。不过某些吃瓜群众(比如我)多少还是会好奇,“头部”用户有哪些人?
这两个平台的被关注数都是公开的数据,不像微信公众号。所以只要你一个个用户翻过去,就可以找出哪些用户的“粉丝”更多。但显然,我们不可能人工来做这样的事情,这两个平台的账号数都已过亿。我们需要借助程序来做这件事。
即使用程序,上亿个用户每个都查一下,假设1秒钟查10个,也需要查100多天。所以我们需要改进下“算法”:知乎上选取几个大V用户(实际上我们就是从“张佳玮”一个号开始),只去查他们关注的用户,如果发现里面有超过1万粉的大V,就加入到大V队列末尾,直到遍历完整个队列。再对所有找到的用户进行排序。因为通常来说,一个大V总会被其他大V所关注,所以这样就几乎包括了所有大V。
B站上也是类似,但是选取了今年播放数超50万视频的UP主,以他们作为最初的大V队列。之后再通过他们关注的人进行数据更新。
当然,这种方法也存在遗漏的可能,比如或许存在某个大V,因为某些原因恰好没有被我们所抓取的队列总任何一个用户所关注,那么他就不会存于排行榜中。虽然从统计学的角度来说,这个概率很小。但我们也为此做了一个弥补,就是一旦你发现某个大V不在列表中,可以通过页面上方的输入框提交他的主页链接,那么我们就会收录在队列中,下次更新时就会增加进去。
有了这个排行,平台上的大V都有谁就一目了然了。更进一步,你还可以从细节看出些有意思的东西。举几个例子:
B站UP主“敬汉卿”,上周因为名字被某公司恶意抢注的事件,得到较多关注,粉丝涨了100多万 本期B站排名第69的“罗汉解说”,上周上升24名。对这位UP主我不熟悉,看了下也是因为一个维权相关的视频受到了关注 知乎上现在排名最前和涨幅最猛的是几个自家账号:知乎日报、刘看山、知科技。丁香医生超张佳玮成知乎一哥,而他俩则远高于后面一位。 知乎榜上只有一位用户的关注是负增长:无耻采铜。老知乎用户应该知道他,也是有一些历史遗留八卦在其中。此账号65万关注,但现在已没有任何回答。