这6集、60+分钟网爬基础视频，免费公开了!

- 1 -

关于网爬，很多朋友都非常感兴趣，卖课程或卖工具的，往往会把它描述得很简单，看着是点个按钮就拿到了数据般神奇。

但是，网爬到底是个啥，涉及到哪些知识点？很多朋友可能连门都没入，自然也很难体会要学好网爬真正要掌握的知识。

此前，我陆续写过一些关于网爬的文章，也录制6集关于网爬基础的视频，这些视频发布在我的付费系列视频“Excel、Power Query及Pivot”的“M语言及函数进阶”里：

现一次性免费公开发布如下，让大家较详细地了解基础的网爬从哪里开始学、哪里开始练，然后，自己决定，以后要不要深入去学。

- 2 -

6集免费视频及内容

视频一、理解网页的基本结构以及数据抓取的基本方法

1、网页的基本结构（代码）；

2、用PQ抓取网页中表（Table）及源代码的方法；

3、了解File.Contents、Web.Page及Lines.FromBinary函数；

4、解析源代码后的数据提取。

视频二、常见html标签及抓取国统局省级编码及名称

1、网页开发的核心知识简介（html/css/javascript）；

2、html中常见的标签；

3、国统局区划代码网站解读及数据抓取方法。

视频三、国统局区划代码二、三级数据抓取及清洗

1、网址的拼接及内容抓取；

2、对存在问题的数据进行转换统一后再展开；

3、从数据中再提取下级编码继续抓取……

视频四、数据真实网址的识别及数据抓取

1、以国家标准信息网数据抓取为例，讲解：

1.1 无法直接抓取数据的情况；

1.2 通过Chome浏览器获取数据真实网址及参数的方法；

1.3 json格式数据的读取；

1.4 网页语言编码(如中文GB2312编码936)的识别。

2、以燃油附加费数据抓取为例讲解页签类数据的网址识别方法；

3、json的基本数据格式。

视频五、特殊结构数据的一些处理思路

1、被多重表格化的数据，通过逐层展开时的麻烦；

2、通过Power BI Desktop新功能“示例获取数据”进行数据抓取的基本方法及原理；

3、直接读取源码转换到行并进行筛选的数据清洗方法；

4、替换中间标签凑成整表的数据处理方法：

4.1 将网页源码读成文本（Text.FromBinary）；

4.2 替换换行"#(lf)"、回车"#(cr)"符；

4.3 替换中间table标签" "并最终抓取数据；

4.4 替换中间标签凑成整表的基本原理。

视频六、json格式及规范化处理

1、标准的json格式及Power Query识别；

2、json格式数据中的“完整”部分及Power Query识别；

3、常见的非标准json格式及规范化处理。

- 3 -

如果，你看完了以上6集视频，觉得网爬很简单并决定深入去学习，那么，也许，我应该鼓励你，相信你有决心一定能学好！

如果，你看完了以上6集视频，觉得基础的网爬都这么复杂，不打算深入去学，那么，也许，我应该恭喜你，你可能远离了一个大坑！

这6集、60+分钟网爬基础视频，免费公开了! | PQ实战基础！