如何利用Excel批量爬取网页上不规范的数据?

Hello~我是运营菌。

快过年了,有空可以多陪陪家人和孩子。如果有空无聊时,推荐去看看电影。这里给大家推荐的是豆瓣电影TOP250,每一部都是经典,值得再去回顾。这里就叫大家如何把这样的电影列表爬取下来。

如果你想增加和别人共同聊天话题,或者你是一名影视剪辑作者,也可以在这些经典电影寻找灵感。

现在我们教大家利用Excel爬取电影列表。在Excel的【数据】选项卡,有个获取数据从网页,获取数据。

此处使用到的方法,跟上面爬取电商商品数据的方法是一样的,首先,我们要对比前几页,网址的变化。对比可发现,页数是25的倍数

接着操作分为七步:①输入网址②获取示例表③编辑高级编辑器④定义P页码函数⑤表格转化为函数⑥对应页码数列表格⑦添加列时调用函数

①输入网址

②获取示例表

③编辑整理数据

③编辑高级编辑器

④定义P页码函数

高级编辑器

1.定义函数代码:(p as number) as table =>

2.把“0”替换的代码:(Number.ToText(p))

⑤表格转化为函数

⑥对应页码数列表格

⑦添加列时调用函数

⑧展开数据

最终就能得到TOP250电影的信息。


又到了年终了,有一大堆报表要分析和制定新一年的销售目标,如果数据分析技能不过关,总是要修修改改好几天都过不了关。

推荐大家学习我们的新课《Power BI自动化看板》,教大家建立起模型思维,日常性数据分析可以通过模型自动计算。就不用在每次deadline时加班改出来,结果还吃力不讨好。

本课程40节课,共计320分钟,目前还在补充更新中。学习后,就能轻松制作如下的数据看板。

《世界经济、人口综合看板》

(0)

相关推荐

  • Excel说一大波小姐姐正在来袭

    看到这些美女了吗?别以为小编无聊一个一个去下载的,这个都是Excel干! 不管我的事情! 让我们来看看Excel他到底干了啥!有这么多妹子~ 成品效果演示 我们今天测试的网址:https://pic. ...

  • 计算机二级Ms Office第4套真题解析

    近期计算机二级最新消息:江苏全省.河南部分高校已经明确考试延迟或取消,对于延迟的,一律会延迟到今年12月开考,取消的要根据当地考试院安排,有可能会在12月开考,也有可能要等到明年3月开考.不过无论是延 ...

  • 网页上的表格转Excel

    大家好,我是南南 昨晚有个好朋友找我帮个忙,想了想就来开个新专栏,记录一下平常用的技巧 如何将在线网页上的表格转到excel里做数据分析 这里以统计年鉴中"表12-8  全国按现住地和五年前 ...

  • 如何用PowerBI批量爬取网页数据?

    前面介绍PowerBI数据获取的时候,曾举了一个从网页中获取数据的例子,但当时只是爬取了其中一页数据,这篇文章来介绍如何用PowerBI批量采集多个网页的数据. 本文以智联招聘网站为例,采集工作地点在 ...

  • 教你用Python批量爬取小说!这年头了谁看小说还充钱啊!

    爬取小说的思路: 首先获取小说的地址. 分析目录地址结构. 进行地址的拼接. 分析章节内容结构. 获取并保存文本. 完整代码 1.获取小说地址 加载需要的包: import re from bs4 i ...

  • Excel PQ爬取A股实时信息——多页整合篇

    小勤:大海,上次你教我<爬取了沪深A股中的一页>内容,我练过了,这次,继续教我多爬取几个页面呗. 大海:嗯,其实爬取多几个页面跟爬取一个的方法是一样的,只是,一页一页的分开爬取了之后,要再 ...

  • 批量爬取居民点地址转经纬度

    批量爬取居民点地址转经纬度

  • Python爬虫周记之案例篇——基金净值爬取(上)

    相信很多金融类的从业者和学者都比较偏好于爬取金融类数据,比如博主我✧(≖ ◡ ≖✿) 在完成了简单的环境配置后,博主我安耐不住鸡冻的心情,打算先爬个基金数据以解手痒,顺便通过这个案例简单了解一下其中涉 ...

  • 【刑事实务】利用爬虫技术爬取电子书传播牟利行为如何认定

    [刑事法库]创办宗旨 传播刑事领域理论热点,分享办案实务经验技巧 总结类案裁判规则要旨,权威解读最新法律法规 详细解析热点疑难问题,定期发布两高指导案例 [版权声明]版权归原作者所有,仅供学习参考之用 ...

  • PowerQuery爬取网页终极攻略——Power Query网络爬取详解

    Power Query并不是一个专门的网抓或者爬虫工具,没有编程语言那么专业,实现的功能也比较有限,但其优势就是简单易学,且无缝对接excel,所见即所得. 本文将以纯新手的角度,介绍一些基础的网抓知 ...

  • python爬虫爬取网页表格数据

    https://download.csdn.net/download/weixin_38581447/12870156?utm_medium=distribute.pc_relevant_downlo ...

  • 想要利用Python快速爬取整站图片?速进(附完整代码)

    目录 一. 爬取前的准备 二. 查看网页 三. 分析与实现 1. 先确定我们所要爬取内容的具体位置2. 存储的具体实现 (`在pipelines中处理`)3. 更新完善源码 四. 代码   快速爬取整 ...