Scrapy 安装介绍以及基本操作 / 开普饭

在写之前我们先来了解一下什么是Scrapy？

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便

Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求

Python3.6 Scrapy安装

Scrapy框架官方网址：http://doc.scrapy.org/en/latest

第一种方法，windows安装

这种方式需要我们打开终端，步骤是windows+r，输入cmd回车进入终端

有时pip版本过于老旧不能使用，需要升级pip版本，输入pip install --upgrade pip回车，升级成功

安装scrapy命令：pip install Scrapy

直接使用命令安装不成功可以下载whl格式的包安装，安装whl格式包需要安装wheel库

输入：pip install wheel

安装完成后验证是否成功

scrapy的whl包地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索 scrapy

因为scrapy框架基于Twisted,所以先要下载其whl包安装

地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/

搜索 twisted 根据自己的版本下载

进行安装 xxxxxxxx是包的名字进入whl包所在的路径，执行下面命令

pip install xxxxxxx.whl

scrapy包使用相同的方式进行安装，进入所在目录，执行

pip install Scrapy‑1.5.1‑py2.py3‑none‑any.whl

第二种方法，利用anaconda安装scrapy框架

使用pip install 来安装scrapy需要安装大量的依赖库，这里我使用了Anaconda来安装scrapy，安装时只需要一条语句：conda install scrapy即可

安装Anaconda，在cmd窗口输入：conda install scrapy ，输入y回车表示允许安装依赖库

安装完成需要测试是否安装成功，在终端输入scrapy回车，如下图证明安装成功

scrapy 基本操作

安装成功后，在自己的pc工程里建一个文件

打开终端，输入cd 把工程里建的文件拖入回车

提示下面结果代表成功

二. Scrapy的基本用法

首先，在我们进行第一步——Scrapy的安装时，无论通过什么方式安装，都要进行验证，在验证时输入Scrapy命令后，会得到系统给出的类似于文档的提示，其中包括了Scrapy的可执行命令，即Available commands，具体如下图所示：

接下来我们通过建立一个简单的项目应用来了解这些命令的使用：

①. 在编译器PyCharm中新建一个文件夹“Scrapy测试”，然后在终端中输入： cd (注意cd后有一个空格)，接着讲新建的文件夹拖入命令行，系统会自动补全该文件夹的完整路径，按下回车后就能进入该文件夹。

②. 在终端输入指令：scrapy startproject wxz 进行项目创建。scrapy startproject是创建项目的命令，后面跟的是项目名称。该指令执行后的结果如下图所示：

如图所示：Scrapy测试文件夹中，被创建几个文件夹和py文件，这就表示一个项目初步创建成功。

③. 通过cd命令进入wxz文件夹，命令为cd wxz

④. 再次输入cd命令，进入外层wxz文件夹中的wxz文件夹，为了快捷和减少出错，可以通过按“↑”键执行命令

⑤. 输入cd spiders ，进入spiders文件夹内

⑥. 在终端中输入scrapy genspider taobaoSpider baidu.com，这个命令是指定要爬取的网站的域名，命令格式为：scrapy genspider taobaoSpider + 目标网站的域名。执行效果如图所示：

至此，一个初步得scrapy项目就已经创建成功，下面我们了解一下这个框架的每个部分的功能：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

三. 相关配置文件说明

在第二部分，我们初步创建了一步Scrapy项目，在自动创建的文件夹中，有着如图所示的几个文件：

它们的作用分别是：

items.py:定义爬虫程序的数据模型

middlewares.py:定义数据模型中的中间件

pipelines.py:管道文件,负责对爬虫返回数据的处理

settings.py:爬虫程序设置,主要是一些优先级设置,优先级越高,值越小

scrapy.cfg:内容为scrapy的基础配置

值得注意的是，在学习阶段，我们要明白几点设置文件setting中的几处配置代码，它们影响着我们的爬虫的效率：

ROBOTSTXT_OBEY = True

这行代码意思是：是否遵守爬虫协议，学习阶段我们要改为False

SPIDER_MIDDLEWARES = {
'wxz.middlewares.WxzSpiderMiddleware': 800,
}

这里的数值越低，速度越快

四. 开始爬虫应用

在终端中输入：scrapy genspider 文件名 + 目标网站域名，比如本文所用的就是：scrapy genspider taobao_spider taobao.com

创建成功后，使用scrapy crawl taobao_spider命令，即可得到目标网站的源码：

以上便是Scrapy的安装和简单配置了，更多学习请关注我的博客更新。

Scrapy 安装介绍以及基本操作

Python3.6 Scrapy安装

相关推荐