利用Power BI批量获取豆瓣电影数据

2020年的电影市场沉寂了大半年,随着国庆档几部影片的上映,差不多恢复到了往年的热度,不过打算看哪部电影不能仅看是否热门,更靠谱的是参考电影评分,更准确的说,是看豆瓣的评分。

这篇文章就来看看如何用PowerBI批量抓取豆瓣电影的数据。以最近正在上映的电影为例,豆瓣网址为:

https://movie.douban.com/

利用从web获取数据的功能,将这个网址放进去,就可以轻松获取这些影片的评分:

这种方式抓取的只有一个评分数据,其实在每部电影的详情页,有更丰富的数据,比如电影的导演、主演、评分人数、影评条数等。

比如最近最热门的电影《姜子牙》的豆瓣详情页:

如何能批量抓取每一部电影详情页中的这些数据呢?下面就来看看操作步骤。

1、批量获取电影的详情页网址。

要想获得详情页的数据,首先就需要先得到每部电影的详情页网址,批量获取网址的方法,之前也介绍过(参考:Power BI如何获取网页中的链接?这个方法非常好用)。

先打开前两部电影的详情页并将网址复制下来,然后利用"使用示例添加表"的功能,将前两行数据粘贴到前两行,系统就可以自动识别并补全剩余的信息。

或许是豆瓣电影网页的数据结构不够规范,所以提取出来的数据,与网站实际看到的略有出入,将重复的、以及不正确的数据删除即可。

2、提取某一部电影详情页需要的数据。

选择某一个电影,进入详情页,比如提取出《姜子牙》的导演、主演、评分人数等数据,依然"使用示例添加表",将这些数据提取成一行,

然后将这一行数据清洗成规范的数据。

3、利用第2步的查询建立自定义函数。

右键该查询>创建函数,

命名为movieinfo,并修改前两行代码,定义网址为参数:

自定义函数制作完成。

4、调用自定义函数。

在第1步查询的基础上,调用创建好的自定义函数:

然后展开数据即可获得每一部电影的详细数据:

将抓取到的数据上载到数据模型中就可以进行分析了,

不得不说,之前备受瞩目的《花木兰》评分真的好低,不推荐观看。

以上就是PowerBI批量抓取链接网页中数据的步骤,具体细节,可能不同的网站需要不同的处理,但整体思路基本如此。

(0)

相关推荐

  • 多列多项数据堆在一个单元格里,怎么分拆对应成规范明细?

    小勤:像这种多项数据堆在一个单元格里的情况,怎么分别拆开做成规范的明细数据啊? 比如拆成下面这个: 大海:这里面显然我们要先对单元格里的内容进行拆分,可以用函数Text.Split函数来完成,比如对& ...

  • 如何利用Excel批量爬取网页上不规范的数据?

    Hello~我是运营菌. 快过年了,有空可以多陪陪家人和孩子.如果有空无聊时,推荐去看看电影.这里给大家推荐的是豆瓣电影TOP250,每一部都是经典,值得再去回顾.这里就叫大家如何把这样的电影列表爬取 ...

  • 这样自定义数据分组又快又方便,公式都不用!| PBI实战技巧

    做数据分析的时候,我们经常要将某些维度进行分组,比如华东.华北作为重要销售区域,合在一起与其他区域进行对比: 这种时候,我们就要对区域进行自定义的分组,比如,通过IF或SWITCH等函数进行判断分组, ...

  • Power Query(BI)里能一键合并所有Excel工作簿?还是别用了吧!

    小勤:这是神马情况啊?"[Expression.Error] 该键与表中的任何行均不匹配".合并文件时不时就跳这个错! 大海:看一下你的数据?小勤:你看,进到PQ(PBI)界面里也 ...

  • 怎么直接把一列的部分数据换成另一列里的数据?

    小勤:怎么把实际销售金额里空的数据用原单价来替代?即没有实际售价的使用原单价. 大海:这个问题好简单啊.添加一个自定义列,做个简单判断就可以了: 小勤:这个我知道啊.但是,能不能不增加列,直接转换吗? ...

  • 第119天:Python 爬取豆瓣电影 top 250

    豆瓣作为一个汇聚书影音内容的社区网站,得到了大量用户的认可和青睐,现在很年轻人在看电影或者买书之前都会去豆瓣上看一下评分和相关评论,不得不说豆瓣评分在一定程度上很客观的反映了一部作品的受欢迎程度. 今 ...

  • 用PowerBI制作上市公司财务报表分析模型

    我花了两周时间对采悟老师的上市公司财务报表分析模型进行了像素级的复刻,这个过程中学到了非常多的PowerBI建模及可视化设计的技巧,受益良多. PowerBI星球财务分析模型: 我将分几篇文章,在这里 ...

  • 利用Power BI计算组,动态切换各种范围的数据标签

    上篇文章介绍了利用计算组动态显示最高点和最低点数据标签的案例,其实还可以进一步展开,利用切片器来动态的展示不同范围的数据标签. 比如设计动态的切换,可以显示全部的数据标签,也可以只显示最高最低点的数据 ...

  • 【Python爬虫】:使用高性能异步多进程爬虫获取豆瓣电影Top250

    在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...

  • Power Query批量汇总JSON文件数据

    为什么我曾多次写及JSON格式数据的相关文章?因为目前JSON已成为当前互联网及各类业务系统的主要数据交换方式之一,且随着新一代软件平台"微服务"架构的流行,JSON格式数据将会更 ...

  • Power BI怎么接入dbf文件数据?

    dbf文件是一种比较经典(就是说很老的意思咯)的数据库文件,以前用FoxPro开发程序的老朋友应该很熟悉,有兴趣了解的新朋友也可以百度知道一下: 也可能因为实在太经典,现在Power BI没有提供直接 ...

  • 利用Power BI的按钮和书签,动态切换图表

    PowerBI中的按钮,通过一定的设置,应用于报表或者仪表板中,可以实现更有趣.更丰富的交互方式,本文通过一个实例了解按钮的用法. 前面已介绍了书签的使用,这篇文章,使用书签,并结合按钮的操作,实现图 ...

  • 牛市来了?利用Power BI辅助投资分析

    上周的文章发出约稿邀请后,后台收到不到小伙伴的热情留言.跃跃欲试,以后会不定期放出一些投稿的文章,也欢迎更多的小伙伴参与,只要你有干货热爱分享,就有机会成为「PowerBI星球」创作团队的一员哦. 今 ...

  • Power BI如何获取网页中的链接?这个方法非常好用

    如何用PowerBI批量爬取网页数据? Power BI抓取猫眼数据告诉你,哪部电影更受欢迎? 对于网页中可见的规范化数据,提取很简单,但对于网页中可以再次点击的链接,怎么提取呢? 其实同样很简单,本 ...

  • 利用Power BI,可视化全球疫情状况

    近期国际疫情愈演愈烈,在这个特殊的时期,一方面仍要照顾好自己.不要为疫情防治添乱,另一方面,也可以利用疫情数据提升自己的数据分析和可视化技能. 下面是我制作的几个可视化图表,分别注释了每个可视化用到的 ...

  • 利用Power BI智能叙述,生成动态报告摘要

    使用PowerBI制作数据报表非常方便,但一个可视化报告,不能只有图表,在报告中制作一个摘要,对图表的重要信息进行简洁的描述,让用户有个整体的概览,是很有必要的. 在PowerBI中如何快速编写摘要呢 ...