采集B站up主信息

l 采集网站

【场景描述】采集B站动漫分类中所有UP主数据。

【源网站介绍】

B站,全名哔哩哔哩,英文名称:bilibili,https://www.bilibili.com/v/channel/type/1,现为中国年轻世代高度聚集的文化社区和视频平台,该网站于2009年6月26日创建,被粉丝们亲切地称为“B站”   。

【使用工具】前嗅ForeSpider数据采集系统,ForeSpider免费版本下载地址

【入口网址】https://www.bilibili.com/v/channel/type/1

【采集内容】

采集B站动漫分类中所有up主信息,字段包括:up主名称、id、视频名称、视频链接、观看量、点赞量等。

【采集效果】如下图所示:

l 思路分析

配置思路概览:

l 配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

2.获取类表请求链接

①在浏览器上观察该页面翻页,翻页类型为瀑布流翻页,推测翻页链接在请求中。

②点击F12,继续往后翻页,观察可找到翻页请求在如下图所示的请求中。

③复制翻页请求链接:

④同样方法,找到第三页和第四页请求链接,并复制出来。

⑤观察链接,发现规律如下图所示:

⑥写翻页链接脚本,具体操作如下所示:

脚本文本:

url u;//定义一个url

for(int i = 1;i <= 20;i++)//写一个for循环,采集前20页内容

{

var y=i*7;//定义y为i*7

u.title = i;//输出url名称为页数

u.urlname = "https://api.bilibili.com/x/web-interface/web/channel/category/channel_arc/list?id=1&offset="+y;//根据翻页请求规律拼翻页请求链接

u.entryid = CHANN.id;//

u.tmplid = 2;关联模板2

RESULT.AddLink(u);

}

⑦采集预览,如下图所示,表示翻页链接已生成。

3.采集up主信息

①在浏览器中打开任意一个翻页请求的链接,可发现up主的信息就在返回的数据值中。而且每个【archive_channels】的数组中有6个值,每个值中的【archives】数组中有6个值即为每个up主的信息。

②通过观察可发现,视频链接规律为:

https://www.bilibili.com/video/+视频id+?spm_id_from=

Up主主页链接为:

https://space.bilibili.com/+up主id+?spm_id_from=

③新建模板02,在其下新建一个数据抽取。

④新建一个数据表单,具体步骤和字段属性如下所示:

⑤关联数据表单,如下图所示:

⑥脚本取值,新建脚本,具体如下图所示:

脚本文本如下所示:

var ur=URL.urlname;//定义ur变量为当前请求链接,即翻页请求链接

var doc = EXTRACT.OpenDoc(CHANN, ur, "");//打开请求

var tstr = doc.GetDom().GetSource().ToStr().Right("archive_channels\":");//打开请求中的dom树,获取源码,并取archive_channels":右侧的所有源码

jScript js;//定义一个js

var obj = js.RunJson(tstr);//执行tstr代码并返回一个对象

var k=1;//定义k为1,为后续自增主键准备

for(var i=0;i<=6;i++){//for循环取【archive_channels】中的6个对象

var obj_a=obj[i].archives;//定义obj_a为第i个对象中的【archives】数组

for(var j=0;j<=5;j++){//for循环取【archives】中的6个对象

var obj_b=obj_a[j];//obj_b为数组中的第j个对象

var title=obj_b.name;//title为j对象中的name值

var id=obj_b.id;//id为j对象中的id值

var view_count=obj_b.view_count;//view_count为j对象中的view_count值

var like_count=obj_b.like_count;//like_count为j对象中的like_count值

var author_name=obj_b.author_name;//author_namet为j对象中的author_name值

var author_id=obj_b.author_id;//author_id为j对象中的author_id值

var bvid=obj_b.bvid;//bvid为j对象中的bvid值

record re;

re.id= k;//主键

re.title = title;//视频名

re.videoid = id;//视频id

re.view_count = view_count; //播放量

re.like_count = like_count;//点赞量

re.author_name = author_name;//up主名

re.author_url = "https://space.bilibili.com/"+author_id+"?spm_id_from=";//uo主主页链接

re.videourl ="https://www.bilibili.com/video/"+bvid+"?spm_id_from==";//视频页链接

RESULT.AddRec(re,this.schemaid);

k=k+1;//k自增

}

}

EXTRACT.CloseDoc(doc);//关闭请求

⑥采集预览

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【bilibili】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。

②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③采集中:

④采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

⑤导出的文件打开如下图所示:

l 前嗅简介

前嗅大数据,国内领先的研发型大数据专家,多年来致力于大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!

(0)

相关推荐

  • 怎么实现彩票走势图,采用js+mvc+html技术来实现

    序言 最近闲来无事,研究下怎么去开发双色球的走势图,觉得还是蛮有意思的,用MVC+JS+HTMl来实现的.做了非常多的走势图,还可以进行选号,还做了一些工具来帮助选号,O(∩_∩)O哈哈~纯粹个人兴趣 ...

  • 一个不确定内容的数组,统计每个元素出现的次数的方法

    第一种方法使用reduce方法,通过传入的内容来确定 var arrs=['a','a','d','c','f','d','我','我','他',2,2,5,4,6,8]; function a(){ ...

  • bsite库 | 采集B站视频信息、评论数据

    一.简介 bsite是用于采集B站用户视频列表页.视频评论数据的python包. 二.安装 pip install bsite 三.使用方法 3.1 初始化Bsite类 登录B站后,使用开发者工具获取 ...

  • 【便民】到哪里能找到人大代表?全市“家、站、点”信息公布!

    如果有情况要向人大代表反映,如何才能找到他们呢?市人大说,在上海,人民群众要找到人大代表有一条便捷途径,就是到"家.站.点",向人大代表面对面反映情况."家.站.点&qu ...

  • B站UP主:有人年入百万,有人忍痛放弃

    编辑导读:时间自由.创作能得到用户认可.工作内容有趣,相信很多人都有过当视频博主的想法.而B站则是很多年轻人的首选,一大波年轻人先后在B站开设账号,成为UP主.但是,但钱在B站就好赚吗?本文作者对此发 ...

  • B站榜单丨4月B站UP主行业排行榜发布!

    飞瓜数据B站发布2021年4月份B站UP主行业月榜排行榜,分别从UP主粉丝总数.作品的平均播放.平均点赞.平均收藏.平均投币等客观数据维度展示每个月B站UP主运营的数据情况. 通过飞瓜B站UP主行业周 ...

  • 186个「 值得你关注 」的B站up主

    嗨,大家好,我是树的葡萄. 三年前,谁曾想到,哔哩哔哩这个中二的小破站竟能如此火爆:谁曾想到,哔哩哔哩这个二次元网站竟能成为我们查阅资料.学习技能的资源库. 短短三年,B站大火,越来越多的牛人在B站输 ...

  • 八字直读日主信息

    八字直读日主信息.八字直读日主本人信息属于第一信息,准确度一般都更高(六亲信息属于第二信息,准确度要差一些),直读的主要信息包括: (1)日主性格.八字直读日主性格主要是从日干.三围十神.八字中最旺的 ...

  • 月榜丨B站UP主3月成长排行榜单发布!

    飞瓜B站发布2021年3月B站UP主成长月榜排行榜,分别从UP主粉丝总数.粉丝增量.播放增量.赞藏增量等客观数据维度展示B站UP主运营成长的数据情况. 通过飞瓜B站UP主成长月榜排行榜来体现UP主每月 ...

  • 没人看的B站UP主墨茶之死,让我看到流量背后的冰冷逻辑

    最近的心头,常常浮现起一首暴露年龄的歌:"没有花香,没有树高,我是一棵无人知道的小草,从不寂寞,从不烦恼,你看我的伙伴遍及天涯海角--" 年少时听这首歌,从来没觉得有什么问题,但当 ...

  • ​刘智强作品:彩 票 站;主播:踏雪寻梅

    诗韵依依 文学微刊 素笔为你写邂逅   素笔为己爱停留 彩 票 站 作者|刘智强 主播|踏雪寻梅 主编|幽梦静美 1 相识与不相识 挤在这狭小的空间 香烟缭绕着 升腾一朵朵烟圈 双眸注视着墙板 悬挂的 ...