如何利用Excel批量爬取网页上不规范的数据?
Hello~我是运营菌。
快过年了,有空可以多陪陪家人和孩子。如果有空无聊时,推荐去看看电影。这里给大家推荐的是豆瓣电影TOP250,每一部都是经典,值得再去回顾。这里就叫大家如何把这样的电影列表爬取下来。
如果你想增加和别人共同聊天话题,或者你是一名影视剪辑作者,也可以在这些经典电影寻找灵感。
现在我们教大家利用Excel爬取电影列表。在Excel的【数据】选项卡,有个获取数据从网页,获取数据。
此处使用到的方法,跟上面爬取电商商品数据的方法是一样的,首先,我们要对比前几页,网址的变化。对比可发现,页数是25的倍数。
接着操作分为七步:①输入网址→②获取示例表→③编辑高级编辑器→④定义P页码函数→⑤表格转化为函数→⑥对应页码数列表格→⑦添加列时调用函数
①输入网址
②获取示例表
③编辑整理数据
③编辑高级编辑器
④定义P页码函数
高级编辑器
1.定义函数代码:(p as number) as table =>
2.把“0”替换的代码:(Number.ToText(p))
⑤表格转化为函数
⑥对应页码数列表格
⑦添加列时调用函数
⑧展开数据
最终就能得到TOP250电影的信息。
又到了年终了,有一大堆报表要分析和制定新一年的销售目标,如果数据分析技能不过关,总是要修修改改好几天都过不了关。
推荐大家学习我们的新课《Power BI自动化看板》,教大家建立起模型思维,日常性数据分析可以通过模型自动计算。就不用在每次deadline时加班改出来,结果还吃力不讨好。
本课程40节课,共计320分钟,目前还在补充更新中。学习后,就能轻松制作如下的数据看板。
《世界经济、人口综合看板》
赞 (0)