易车网实战【保姆级】：Feapder爬虫框架入门教程

2024-07-29 22:24:07

大家好，我是辰哥！

今天辰哥带大家来看看一个爬虫框架：Feapder，看完本文之后，别再说你不会Feapder了。本文辰哥将带你了解什么是Feapder？、如何去创建一个Feapder入门项目（实战：采集易车网轿车数据）。

其中实战部分包括爬虫数据和存储到Mysql数据库，让大家能够感受一下，数据从网页经框架Feapder采集后，直接存储到数据库的过程。

之前我们已经用了Scrapy爬虫框架来爬取数据(以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』)，今天来试试使用Feapder写爬虫是一种怎么样的体验，请往下看！！！！！

Feapder框架

1.Feapder框架介绍

Feapder 是一款上手简单、功能强大、快速、轻量级的爬虫框架的Python爬虫框架。支持轻量爬虫、分布式爬虫、批次爬虫、爬虫集成，以及完善的爬虫报警机制。

具体feapder项目结构每一块的功能是什么？怎么样用？接着往下看，下面的实战中有详细的讲解。

2.Feapder的安装

feapder的安装很简单，通过下面的命令安装即可！

pip install feapder

出现下面的界面说明feapder成功安装！

feapder的介绍和环境安装就完成了，下面开始真正去使用fepader来爬取易车网数据，并存储到mysql数据库。

实战

1.新建feapder项目

通过下方的命令去创建一个名为：chenge_yc_spider的的爬虫项目

feapder create -p chenge_yc_spider

创建好之后，我们看一下项目结构

2.编写爬虫

在终端中进入到项目（chenge_yc_spider）下的spiders文件夹下，通过下面的命令创建一个目标爬虫文件（target_spider）

feapder create -s target_spider

此刻项目结构如下：

编辑target_spider.py文件

这里实战案例：采集易车网数据。直接执行这个py文件，先看一下请求有没有没问题。

可以看到请求返回响应200，说明请求成功。下一步我们开始解析网页数据并设置爬虫框架自动采集下一页数据。

3.解析网页

网页结果（待采集的数据）如下：

通过查看源代码，分析数据所对应的网页标签

通过网页源码可以分析，汽车列表数据都是在class为search-result-list下。每一个class为search-result-list-item表示一条数据，每一条数据下都有汽车对应的属性（如：汽车名称、价格等）

这里仅作为实战案例去学习feapder爬虫框架，因此这里就只爬取汽车名称、价格；这两个字段属性。

4.创建Mysql数据库

采集的数据需要存储到数据库（mysql）中，因此我们先来定义好数据库和表

这里辰哥创建了一个数据库：chenge_yc，并在里面建了应该表：t_yc，其表结构如上图，这里如果不不熟悉mysql如何建立数据库表的可以参考辰哥的这篇文章（实战|教你用Python玩转Mysql）

在爬虫项目中配置数据库，打开根目录下的setting.py文件

可以看到feapder支持多种数据库的对接，咱们这里使用的是mysql，其配置如下：

接着在终端下，进入到根目录下的items文件夹，执行下面命令生成数据库表对于的item

feapder create -i t_yc

请注意：命令中的t_yc是对于数据库表中的t_yc

最后生成 t_yc_item.py 文件：

里面的name和price则是对应数据库中的字段。

5.提取网页字段

上面已经获取到网页源码，也知道数据所在的标签，现在开始编写代码进行解析。

执行结果：

可以看到数据已经成功提出来，下一步将这些数据存储到数据库中。

6.存储到数据库

import feapderfrom items import t_yc_item

class TargetSpider(feapder.AirSpider): def start_requests(self): url = 'https://car.yiche.com/suv/?page=1' headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',

} yield feapder.Request(url,headers=headers, render=True)

def parse(self, request, response): #print(response) result_list = response.xpath('//*[@class='search-result-list-item']') print('本页有'+str(len(result_list))+'条数据') for result in result_list: #创建t_yc_item对象 TycItem = t_yc_item.TYcItem() name = result.xpath(' ./a/p[1]/text()').extract_first() price = result.xpath(' ./a/p[2]/text()').extract_first() TycItem.name = name TycItem.price = price print(name,price) #返回TycItem对象，自动存储到数据库 yield TycItem

引入刚刚的 t_yc_item.py，并创建对象TycItem。把爬取的name和price初始化到对象中。最后yieId TycItem，实际上就直接存储到数据库了（因为数据库表和item是对应连接关系，这样就直接存储到数据库了）。

这太方便了，连sql语句都省了，6666666666

执行结果如下：

查看数据库：

同样可以看到数据直接就存储到数据库中。大功告成！！！！！！

小结

相信看到这里的你已经完完全全掌握了爬虫框架：Feapder，你不仅知道了什么是feapder，同时还学会了如何使用feapder。

此外实战部分包括爬虫数据和存储到Mysql数据库，让大家能够感受一下，数据从网页经框架Feapder采集后，直接存储到数据库的过程。

一定要动手尝试！一定要动手尝试！一定要动手尝试！

第五讲：毕业设计的框架设计

本讲我们来理清思路,如何把大数据思维融入毕业设计里面. 首先,前提是你已经知道了一个软件项目的制作,比如"基于分布式存储的学生档案管理系统"."基于分布式计算的图书管理系 ...
【实战视频】使用scrapy写爬虫-爬知乎live

我其实很喜欢造轮子,一直没用过爬虫框架写爬虫.虽然知道爬虫很简单,scrapy框架也不难,但是在舒适区呆久了,真的不想学新东西,用新知识写爬虫. 今天我不止用新框架scrapy写爬虫,而且我还要使用s ...
scrapy和scrapy-redis有什么区别?

Scrapy和Scrapy-redis有什么区别?简单的来讲,Scrapy是一个通用的爬虫框架,但不支持分布式;而Scrapy-redis就是为了方便实现Scrapy框架的分布式抓取.具体内容跟着小编 ...
列举几个简单的例子来更好的理解scrapy工作的原理

说明:了解爬虫的可能都会知道,在爬虫里,requests入门简单,即使是没有基础的小白,学个几天也能简单的去请求网站,但是scrapy就相对来说就比较难,本片文章能是列举几个简单的例子去理解的scra ...
7款好用的Python爬虫框架！

Python是网络爬虫的首选语言,在爬虫领域有着独特的优势和用途,而且Python还拥有很多爬虫框架,那么你知道哪个Python爬虫框架最高效吗?这几个你一定要知道. 1.Scrapy Scrapy是 ...
Python爬虫框架有哪些？这几种最常见！

Python之所以被称为"爬虫"的首选语言,主要原因是因为Python拥有很多爬虫框架,不仅功能齐全.优点多,而且可以帮助程序员以更少的代码实现更多的功能,让工作变得更加轻松便利. ...
Python爬虫常见面试题！

众所周知,爬虫是Python重要的应用方向之一,也是学习Python求职的热门岗位.对此,为帮助学员们快速通过面试,小编整理了一些Python爬虫常见面试题,希望能够帮助到你们. 1. 试列出至少三种 ...
新手画脸总画不好？保姆级教学带你入门，人物五官正确画法解析

新手画脸总画不好？保姆级教学带你入门，人物五官正确画法解析
保姆级黑群晖安装教程，绿色环保，让闲置的电脑变身NAS~

2021-09-18 16:05:53 创作立场声明:本文所测商品为自费购入,无利益相关,分享安装NAS的详细过程,请各位放心开篇碎碎念 Hi,大家好,这篇文章在草稿中已经好久了,最终还是整理发了 ...
Python爬虫入门保姆级教程！看完不会来找我

什么是爬虫? 爬虫就是自动获取网页内容的程序,例如搜索引擎,Google,Baidu 等,每天都运行着庞大的爬虫系统,从全世界的网站中爬虫数据,供用户检索时使用. 爬虫流程其实把网络爬虫抽象开来看, ...
「保姆级吉他零基础教学」入门吉他只需两周！12集全（吉他弹唱/吉他教程/吉他自学/吉他基础/吉他练习...

「保姆级吉他零基础教学」入门吉他只需两周！12集全（吉他弹唱/吉他教程/吉他自学/吉他基础/吉他练习...
陆介政：套保姆级的Java入门教程,Java零基础入门

最近很多人问我想学Java但是一点基础没有,网上看了一堆学习线路图还是无从下手.今天耗时3小时整理了一套保姆级的Java入门教程,建议收藏按照线路图一点点学习. 一.Java的概况 Java是199 ...
抖音直播带货入门保姆级手册 1.0，修订版

本手册分两部分: 第一部分,聊算法,剖析抖音直播带货的底层逻辑: 第二部分:看要素,细说直播带货的六要素:即人.货.场.号.店.流量. 一.算法关于抖音的崛起,我们可以找出很多关键词,"算 ...
副业入门干货‼️保姆级教程

看完一起赚钱,影视剪辑月入过万玩法! 1.找素材:电影网线直接下载 2.剪辑视频:手机用剪映,电脑用PR 3.发布时间:选择用户玩手机的高峰期️ 4.注意事项:视频一定要横屏才有收益.一定要勾选原创, ...
保姆级Git入门教程，10000 字详解

作者:gafish 链接:https://github.com/gafish/gafish.github.com Git简介 Git 是一种分布式版本控制系统,它可以不受网络连接的限制,加上其它众多优 ...
保姆级Git入门教程，万字详解

[object Object] 作者 | gafish 编辑 | 高效程序员前言 Git简介实用主义深入探索总结参考资料前言 Git 是程序员学习和工作都离不开发工具,也是非程序员好用的文 ...

易车网实战 【保姆级】：Feapder爬虫框架入门教程