Excel应用大全 |使用 Power Query 批量收集网站数据

一本书教会你分分钟搞定数据分析!
在大数据时代,除了企业、公司和个人,互联网也是一个非常重要的数据来源。随着信息化社会的快速发展,互联网中可以获取的数据也越来越多,并且多数网站所提供的数据并非一两个页面所能容纳的,如股票行情数据,由于上市交易的股票数量众多,所以网站提供的数据通常都会有几十个网页,甚至更多。
虽然通过【数据】选项卡的【从网站】功能可以获取单个网页中的数据,但是这样的操作显然无法胜任收集大量网页数据的任务。批量收集网站数据,又被称为网络数据抓取,有时也被简称为“网抓”。用于网抓的工具或软件通常被称为网络爬虫(Web Crawler)。
以某网站的“个股市盈率”网页为例,如图 2-139 所示,每个页面中有 50 行数据,共有 64 个网页。让我们使用Power Query的方式实现抓取前 5 个网页的数据。
图 2-139 个股市盈率网页

步骤 1

单击【数据】选项卡的【自网站】按钮,在弹出的【从 Web】对话框的【URL】文本框中输入这一地址内容再进行下一步操作:“http://data.10jqka.com.cn/market/ggsyl/fifield/syl/order/desc/page/1”单击【确定】按钮关闭【从 Web】对话框,如图 2-140 所示。

图 2-140 在【从 Web】对话框中输入 URL82

步骤 2

Excel 查询数据之后,将弹出【导航器】对话框,在对话框左侧单击【Table 0】,在对话框右侧的【表视图】中将显示相应的数据内容,单击【转换数据】按钮,如图 2-141 所示。

图 2-141 在【导航器】对话框中选择表格

步骤 3

在弹出的【Table 0 – Power Query 编辑器】窗口中,单击【开始】选项卡的【高级编辑器】按钮,在弹出的【高级编辑器】对话框中修改公式(区分字母大小写),单击【完成】按钮关闭对话框,如图 2-142 所示。

图 2-142 修改 Power Query 公式

步骤 4

在【查询设置】窗格的【名称】文本框输入“GetWebPage”修改查询名称,单击【开始】选项卡的【关闭并上载】按钮关闭编辑器窗口,如图 2-143 所示。
图 2-143 修改查询名称并上载

步骤 5

在 Excel 的【查询 & 连接】窗格中查询名称“GetWebPage”之前显示“fx”标识,说明这是一个自定义函数。依次单击【数据】选项卡→【获取数据】下拉按钮→【自其他源】→【空白查询】命令,如图 2-144 所示。
图 2-144 新建空白查询

步骤 6

在弹出的【查询 1 – Power Query 编辑器】窗口的公式栏中输入“={1..5}”,按< Enter > 键完成输入,在编辑器将新建一个列表,包含 1 到 5 的数字。

步骤 7

依次单击【转换】选项卡→【到表】按钮,在弹出的【到表】对话框中保持默认设置,单击【确定】按钮关闭对话框,如图 2-145 所示。

图 2-145 列表数据转换

步骤 8

在【查询 1 – Power Query 编辑器】窗口中单击【添加列】选项卡的【调用自定义函数】按钮,在弹出的【调用自定义函数】对话框中调整设置,在【新列名】文本框中输入“Web”作为名称,在【功能查询】组合框中选中“GetWebPage”,在【PageIndex】标签之下右侧组合框中选中“Column1”,单击【确定】按钮关闭对话框,如图 2-146 所示。
图2-146 设置调用自定义函数

步骤 9

此时将弹出黄色的数据隐私提示栏,单击【继续】按钮,在弹出的【隐私级别】对话框中,选中【忽略此文件的隐私级别检查。忽略隐私级别可能会向未经授权的用户公开敏感数据或机密数据。】复选框,单击【保存】按钮关闭对话框,如图 2-147 所示。

图 2-147 忽略隐私级别检查

步骤 10

单击“Web”列标题右侧的展开按钮,在弹出的对话框中取消选中【使用原始列名作为前缀】复选框,单击【确定】按钮展开“Web”列,如图 2-148 所示。

图 2-148 展开“Web”列

步骤 11

在【查询 1 – Power Query 编辑器】窗口中依次单击【开始】选项卡→【关闭并上载】下拉按钮→【关闭并上载至 ...】命令,在弹出的【导入数据】对话框中选中【表】单选按钮,保持默认选中的【新工作表】单选按钮,单击【确定】按钮关闭对话框,如图 2-149 所示。

图2-149 关闭并上载至工作表

批量采集的网站数据将上载到 Excel 新建工作表中,共有 250 行数据(5x50 行 / 页),如图 2-150 所示。

如果【查询 & 连接】任务窗格中显示“已加载 250 行。N 个错误”,错误的原因可能是部分指标数据未从网站上成功获取(比如该指标在网站上为空)。

图 2-150 上载到工作表中的数据

还想要学习其他数据处理与分析的技巧吗?快来看看应用大全吧!

(0)

相关推荐

  • 手把手教你玩转Excel表格的定位功能

    如图1-5所示,Excel中空列太多,如何批量删除这些空列呢?其实可以利用F5键来打开定位功能. 图1-5 操作 步骤1:选中数据表区域,如B2:H11,按F5键打开定位功能,单击"定位条件 ...

  • Power Query — 强大的数据处理工具

    Power Query是Excel Power BI套件系列工具中的一个,是一个非常 强大的数据获取处理工具.有了它,原来很多需要非常复杂的公式或VBA完成的工作就可以很轻松就完成了.强烈推荐大家学习 ...

  • Power Query批量导入Excel文件,和导入文本有一点儿不同

    小勤:大海,你上次说PowerQuery可以批量导入Excel文件,我参考你那个批量导入文本文件的方法试了一下,不行啊. 大海:呵呵.我就知道你会有问题. 小勤:知道会有问题还不早说!你看,我的文件也 ...

  • Excel|Power Query批量合并工作表,简练完爆所有其它方法!

    Excel情报局 Excel职场联盟 生产挖掘分享Excel基础技能 Excel爱好者大本营 用1%的Excel基础搞定99%的职场问题 做一个超级实用的Excel公众号 Excel是门手艺玩转需要勇 ...

  • Power Query批量合并Excel,数据不是从第一行开始怎么办?

    这种情况确实很常见,因为大多数Excel表都会有个表头信息,具体的明细数据从下面的某行才开始,比如下面示例中的三个表就是这样: 这三张表的数据都是从第5行才开始的,并且数据字段的顺序也不一致,这种情况 ...

  • Excel|Power Query批量合并工作表

    Excel情报局 Excel职场联盟 生产挖掘分享Excel基础技能 Excel爱好者大本营 用1%的Excel基础搞定99%的职场问题 做一个超级实用的Excel公众号 Excel是门手艺玩转需要勇 ...

  • Power Query批量汇总JSON文件数据

    为什么我曾多次写及JSON格式数据的相关文章?因为目前JSON已成为当前互联网及各类业务系统的主要数据交换方式之一,且随着新一代软件平台"微服务"架构的流行,JSON格式数据将会更 ...

  • Excel应用大全 | 从word文档中导入数据

    一本书教会你分分钟搞定数据分析! Word 是 Office 组件中用于文字处理的应用程序,通常并不用于保存数据.但是由于种种原因,日常工作中确实也会遇到保存在 Word 中的数据表,并且很多时候无法 ...

  • 使用Power Query实现跨表格数据查询

    在工作过程中,我们经常要进行表与表之间的快速核对和匹配,查找函数一般都是各位小伙伴的第一选择,常用的有VLOOKUP,LOOKUP还有经典的INDEX+SMALL+IF组合等等.不过这些函数都有很多限 ...

  • Excel竟然还有这种操作:自动同步网站数据

    有时我们需要从网站获取一些数据,传统方法是通过复制粘贴,直接粘到 Excel 里.不过由于网页结构不同,并非所有的复制都能有效.有时即便成功了,得到的也是"死数据",一旦后期有更新 ...

  • Excel教程:Power Query,万能的批量数据替换技巧!

    每天一点小技能 职场打怪不得怂 编按:说到Excel的替换操作,大家首先想到的一定是SUBSTITUTE和REPLACE函数.可是,今天需要处理的替换问题,这两个函数也束手无策,那要怎么做呢?下面,小 ...