这6集、60+分钟网爬基础视频,免费公开了! | PQ实战基础!
- 1 -
关于网爬,很多朋友都非常感兴趣,卖课程或卖工具的,往往会把它描述得很简单,看着是点个按钮就拿到了数据般神奇。
但是,网爬到底是个啥,涉及到哪些知识点?很多朋友可能连门都没入,自然也很难体会要学好网爬真正要掌握的知识。
此前,我陆续写过一些关于网爬的文章,也录制6集关于网爬基础的视频,这些视频发布在我的付费系列视频“Excel、Power Query及Pivot”的“M语言及函数进阶”里:
现一次性免费公开发布如下,让大家较详细地了解基础的网爬从哪里开始学、哪里开始练,然后,自己决定,以后要不要深入去学。
- 2 -
6集免费视频及内容
视频一、理解网页的基本结构以及数据抓取的基本方法
1、网页的基本结构(代码);
2、用PQ抓取网页中表(Table)及源代码的方法;
3、了解File.Contents、Web.Page及Lines.FromBinary函数;
4、解析源代码后的数据提取。
视频二、常见html标签及抓取国统局省级编码及名称
1、网页开发的核心知识简介(html/css/javascript);
2、html中常见的标签;
3、国统局区划代码网站解读及数据抓取方法。
视频三、国统局区划代码二、三级数据抓取及清洗
1、网址的拼接及内容抓取;
2、对存在问题的数据进行转换统一后再展开;
3、从数据中再提取下级编码继续抓取……
视频四、数据真实网址的识别及数据抓取
1、以国家标准信息网数据抓取为例,讲解:
1.1 无法直接抓取数据的情况;
1.2 通过Chome浏览器获取数据真实网址及参数的方法;
1.3 json格式数据的读取;
1.4 网页语言编码(如中文GB2312编码936)的识别。
2、以燃油附加费数据抓取为例讲解页签类数据的网址识别方法;
3、json的基本数据格式。
视频五、特殊结构数据的一些处理思路
1、被多重表格化的数据,通过逐层展开时的麻烦;
2、通过Power BI Desktop新功能“示例获取数据”进行数据抓取的基本方法及原理;
3、直接读取源码转换到行并进行筛选的数据清洗方法;
4、替换中间标签凑成整表的数据处理方法:
4.1 将网页源码读成文本(Text.FromBinary);
4.2 替换换行"#(lf)"、回车"#(cr)"符;
4.3 替换中间table标签" "并最终抓取数据;
4.4 替换中间标签凑成整表的基本原理。
视频六、json格式及规范化处理
1、标准的json格式及Power Query识别;
2、json格式数据中的“完整”部分及Power Query识别;
3、常见的非标准json格式及规范化处理。
- 3 -
如果,你看完了以上6集视频,觉得网爬很简单并决定深入去学习,那么,也许,我应该鼓励你,相信你有决心一定能学好!
如果,你看完了以上6集视频,觉得基础的网爬都这么复杂,不打算深入去学,那么,也许,我应该恭喜你,你可能远离了一个大坑!