使用 scrapy 爬取 stackoverflow 上的所有 Python 问答

2024-05-04 06:19:46

前两天

小帅b跟你

说了说分布式爬虫

在里面我就说到

弄个例子来体现一下分布式爬虫

在此之前

我们可以先写一个单机版的爬虫

往后再对其修改一些配置

就可以搞成分布式的了

所以这次我们先

爬取 stackoverflow 上的

所有 Python 问答

那么接下来就是

学习 Python 的正确姿势

别问我为什么不爬取国内的网站

打开

https://stackoverflow.com/questions/tagged/python

简单分析一下这个页面

我们就去抓取每一个 item 里面的

问题

votes

answers

views

链接

待会根据 xpath 获取就可以了

那我们先创建一个工程吧

打开 items.py

定义一下我们要获取的字段

接着在 spider 创建一个文件

我们就叫做

stackoverflow-python-spider.py

创建一个继承 scrapy 的 spider 类

接着定义一下请求链接的方法

在这里我们可以看到

每个页面的请求链接是这样的

那么我们可以这样构建

接着我们定义一下回调的解析方法

根据每个元素的 xpath

和我们刚刚定义的字段结合起来

接着就可以在 pipelines 中

配置链接数据库了

这里我们使用 MongoDB

主要是初始化的时候链接数据库

在解析过程把数据和保存到数据库

在 settings 中需要配置下

顺便配置一下“狗头”

当然如果你的破网访问不了

stackoverflow 的话

自行设置下代理

最后开启你的 MongoDB

执行以下命令开始爬取

scrapy crawl stackoverflow-python

这样就把数据爬取到你的数据库了

ok

以上就是本次分享的内容

希望对你有帮助

如果你需要源码的话

可以在公众号后台

发送 “111” 获取

下次我们继续盘它

那么我们下回见了

peace

扫一扫

学习 Python 没烦恼

赞 (0)

初识scrapy爬虫框架

框架是为了解决特定的业务场景而开发的一套高质量代码,通过框架避免了重复造轮子的低效模式,可以更加专注于具体业务相关的代码.在python中,scrapy就是一个主流的爬虫框架,可以通过如下方式进行安装 ...
Python的Scrapy框架有什么用途？

众所周知,Python有很多框架可以使用,比如说Scrapy.它是一个适用于Python的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从网页中提取结构化的数据,用途十分广泛,那么你 ...
Python爬虫常见面试题！

众所周知,爬虫是Python重要的应用方向之一,也是学习Python求职的热门岗位.对此,为帮助学员们快速通过面试,小编整理了一些Python爬虫常见面试题,希望能够帮助到你们. 1. 试列出至少三种 ...
Python爬虫周记之案例篇——基金净值爬取（上）

相信很多金融类的从业者和学者都比较偏好于爬取金融类数据,比如博主我✧(≖ ◡ ≖✿) 在完成了简单的环境配置后,博主我安耐不住鸡冻的心情,打算先爬个基金数据以解手痒,顺便通过这个案例简单了解一下其中涉 ...
scrapy 爬取网上租房信息

一.背景为了分析一线城市的房价在工资的占比,我用Python分别爬取了自如以及拉勾的数据.(见公众号「Crossin的编程教室」今天第1条推送) 本文使用 scrapy 进行爬取自如所有城市的租房信 ...
如何利用Excel批量爬取网页上不规范的数据？

Hello~我是运营菌. 快过年了,有空可以多陪陪家人和孩子.如果有空无聊时,推荐去看看电影.这里给大家推荐的是豆瓣电影TOP250,每一部都是经典,值得再去回顾.这里就叫大家如何把这样的电影列表爬取 ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影

我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
python爬虫29 | 使用scrapy爬取糗事百科的例子，告诉你它有多厉害！

是时候给你说说爬虫框架了使用框架来爬取数据会节省我们更多时间很快就能抓取到我们想要抓取的内容框架集合了许多操作比如请求,数据解析,存储等等都可以由框架完成有些小伙伴就要问了你他妈的 ...
做电商怎么一键爬取同行商品的主图视频到电脑上

现在做电商的主图基本都会用主图视频来讲解演示,那么自己不会制作主图视频怎么办?今天小编就来教大家如何一键爬取下载同行商品主图视频的方法技巧,一起来学习看看吧! 首先我们运行打开天图视频批量下载工具,没 ...
【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）

一.确定爬取思路今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来.首先打开网页htttps://gank.io 当中的妹子专栏, 发现里面全是妹子,如下所示: ...
网页上的视频你不知道如何爬取？那么这个方法你一定要学会了，赶紧收藏保存起来#程序员 #代码 #如何下...

网页上的视频你不知道如何爬取？那么这个方法你一定要学会了，赶紧收藏保存起来#程序员 #代码 #如何下...
【视频】爬取饿了么平台上的门店信息

大邓闲聊今天给大家写个简单的爬虫,纯属当做休闲娱乐之用.太难的大邓就不写了,本来就是闲下来,娱乐下,没必要给自己找郁闷,嘿嘿. 其实这是一个网友发给我的题目中的一个小部分,做成了就能去他们团队做兼职 ...