完结!学了56天爬虫,我终于看透了Python

昨天成功爬取了51job的列表页,下面的工作就是爬取列表页中点进岗位的详情页。

这里可以用字典(键值对)的方式来保存数据。

数据有时候其实跟人一样,只有成双成对,才会快乐。

先设定两个全局变量Data和List,Data用于保存每个岗位的全部信息,List用于保存所有岗位信息。

List中的每一个元素,就是Data这个字典。

这里还有个需要注意的问题就是,不要没完没了的爬,作为测试阶段,先爬取一个网页就好了,比如先随便找个岗位,把它详情页的网址复制下来。

然后下面就是爬取详情页的一个难点。

爬取出的有些数据是一串的,如何进行文字解析呢?

这个貌似之前在黑马的课程中有讲到。

主要包括字符串截取、分隔、去除特殊符号、去除前后空格等功能。

比如对上面的例子来说,使用 split 和 sprip 结合就可以轻松实现了。

参考之前解析豆瓣的办法,写出getData 函数。

最关键的就是将 jname 内容放到字典中去,而job在 jobList 中,其实是作为一行记录。

这个爬取 51job 的代码,老师讲到这里就结束了。

嗯,是的,你没看错,下面没有了。

因为此项目是这个课程老师留给学生们的作业,所以他只是在一些关键点上进行了一番提点,并没有把所有答案都直接“喂”给孩子们。

从教学方法上来说是没错吧,不过对于我等跟着课程学的,就稍微有点不太友好了。

尤其今天和昨天的课程,很多地方听的我都有点糊涂,直接导致我独立完成这个项目,有点信心不足了。

我现在对自己的评价很客观:比小白强一点,但绝对还是个妥妥的 Python 初学者

很多朋友都知道,我的终极目标是爬房产中介网站,通过掌握更全面的信息,买到合适的学区房。

巧的是,前几天偶然得到黑马就业班的视频,我发现里面就有讲这个内容。

所以,下一步我会继续转战黑马,

但是,学习心得这块我应该就不会继续更新了。

因为我发现,前面学习 Python 基础知识的时候,写心得还是轻松加愉快的事情。

但是到后面做项目、编代码时候,很多时候都是直接敲代码,心得这东东真的没法写。

当然,有重大突破到时候,我还是会跟大家分享的。

有些人问我这50多天是怎么坚持下来的,明天,我就跟大家一起聊聊这段时间的一些感想吧。

大爷们,明天记得来玩哟~


作者简介:冯十一,多平台签约作者,每周阅读一本书。40岁坚持学习的中年男人,篇篇都是有趣又轻松的干货,专注个人成长、思维方式。欢迎关注@天津冯十一

(0)

相关推荐