这6集、60+分钟网爬基础视频,免费公开了! | PQ实战基础!

- 1 -

关于网爬,很多朋友都非常感兴趣,卖课程或卖工具的,往往会把它描述得很简单,看着是点个按钮就拿到了数据般神奇。

但是,网爬到底是个啥,涉及到哪些知识点?很多朋友可能连门都没入,自然也很难体会要学好网爬真正要掌握的知识。

此前,我陆续写过一些关于网爬的文章,也录制6集关于网爬基础的视频,这些视频发布在我的付费系列视频“Excel、Power Query及Pivot”的“M语言及函数进阶”里:

现一次性免费公开发布如下,让大家较详细地了解基础的网爬从哪里开始学、哪里开始练,然后,自己决定,以后要不要深入去学。

- 2 -

6集免费视频及内容

视频一、理解网页的基本结构以及数据抓取的基本方法

1、网页的基本结构(代码);

2、用PQ抓取网页中表(Table)及源代码的方法;

3、了解File.Contents、Web.Page及Lines.FromBinary函数;

4、解析源代码后的数据提取。

视频二、常见html标签及抓取国统局省级编码及名称

1、网页开发的核心知识简介(html/css/javascript);

2、html中常见的标签;

3、国统局区划代码网站解读及数据抓取方法。

视频三、国统局区划代码二、三级数据抓取及清洗

1、网址的拼接及内容抓取;

2、对存在问题的数据进行转换统一后再展开;

3、从数据中再提取下级编码继续抓取……

视频四、数据真实网址的识别及数据抓取

1、以国家标准信息网数据抓取为例,讲解:

1.1 无法直接抓取数据的情况;

1.2 通过Chome浏览器获取数据真实网址及参数的方法;

1.3 json格式数据的读取;

1.4 网页语言编码(如中文GB2312编码936)的识别。

2、以燃油附加费数据抓取为例讲解页签类数据的网址识别方法;

3、json的基本数据格式。

视频五、特殊结构数据的一些处理思路

1、被多重表格化的数据,通过逐层展开时的麻烦;

2、通过Power BI Desktop新功能“示例获取数据”进行数据抓取的基本方法及原理;

3、直接读取源码转换到行并进行筛选的数据清洗方法;

4、替换中间标签凑成整表的数据处理方法:

4.1 将网页源码读成文本(Text.FromBinary);

4.2 替换换行"#(lf)"、回车"#(cr)"符;

4.3 替换中间table标签" "并最终抓取数据;

4.4 替换中间标签凑成整表的基本原理。

视频六、json格式及规范化处理

1、标准的json格式及Power Query识别;

2、json格式数据中的“完整”部分及Power Query识别;

3、常见的非标准json格式及规范化处理。

- 3 -

如果,你看完了以上6集视频,觉得网爬很简单并决定深入去学习,那么,也许,我应该鼓励你,相信你有决心一定能学好!

如果,你看完了以上6集视频,觉得基础的网爬都这么复杂,不打算深入去学,那么,也许,我应该恭喜你,你可能远离了一个大坑!

(0)

相关推荐