(1条消息) python 爬虫 3 （实例：爬取网站照片、一句代码抓取图片）

2024-06-20 17:43:07

爬取下厨房网站照片

写在前面
- 1、爬取下厨房网站照片
- 2、把代码改成正则表达式
- 3、在linux里面用一句代码抓取下载所有的图片
- - 补充知识
  - 一句代码抓取下载所有的图片

写在前面

下厨房官网：

http://www.xiachufang.com/

一个简单的实例爬取图片：用到requests、bs4、正则等

1、爬取下厨房网站照片

分析下厨房的源码，图片在img标签下

这里我们获取它的ing标签

from bs4 import BeautifulSoupimport requestsr = requests.get('http://www.xiachufang.com/')soup = BeautifulSoup(r.text)print(soup.select('img'))

查看我们获取的数据，我们发现部分src里面存的是一个b64码，真正的图片地址在data-src里面

所以把img标签里的有data-src的就取data-src

img_list = []for img in soup.select('img'):    if img.has_attr("data-src"):        img_list.append(img.attr['data-src'])    else:        img_list.append(img.attr['src'])

创建文件夹

# 在当前目录创建文件夹imgimg_dir = os.path.join(os.curdir, "img")# 如果img目录不存在,创建img文件夹if not os.path.isdir(img_dir):    os.mkdir(img_dir)

o = urlparse(img)
print(o.path)
查看img的路径是这样的

解析img的路径并切割，保存图片

# 下载图片for img in img_list:    # urlparse()方法进行URL的解析，返回值包括了scheme、netloc、path等    o = urlparse(img)    # o.path[1:]截取path中除第一位以后的字符。  split("@")[0]以@为切割点，取第一个数据    img_name = o.path[1:].split("@")[0]    # 图片名（文件）    img_path = os.path.join(img_dir, img_name)    # 图片下载地址    url = '%s://%s/%s' % (o.scheme, o.netloc, img_name)    # 图片的二进制数据    resp = requests.get(url)    # 把二进制数据写入图片中    with open(img_path, "wb") as f:        # 每次写1024个字节        for c in resp.iter_content(1024):            f.write(c)

运行后

后面会报这样的错误

我们打印一下img_name（它后面的都先注释掉）

运行后我们发现最后有两张svg矢量图，里面夹带了二级目录,所以我们在写入图片之前加一个判断

再运行就没有错误了，下面是除去注释后的全部代码

from bs4 import BeautifulSoupfrom urllib.parse import urlparseimport requestsimport osr = requests.get('http://www.xiachufang.com/')soup = BeautifulSoup(r.text)img_list = []for img in soup.select('img'):    if img.has_attr("data-src"):        img_list.append(img.attrs['data-src'])    else:        img_list.append(img.attrs['src'])img_dir = os.path.join(os.curdir, "img")if not os.path.isdir(img_dir):    os.mkdir(img_dir)for img in img_list:    o = urlparse(img)    img_name = o.path[1:].split("@")[0]    img_path = os.path.join(img_dir, img_name)    m = os.path.isdir(os.path.dirname(img_path))    if not m:        os.mkdir(os.path.dirname(img_path))    url = '%s://%s/%s' % (o.scheme, o.netloc, img_name)    resp = requests.get(url)    with open(img_path, "wb") as f:        for c in resp.iter_content(1024):            f.write(c)

2、把代码改成正则表达式

先获取网页数据，这里我们改用Curl获取

观察我们需要爬取的数据：src=…

用正则搜索数据

搜索结果

我们只需要网址部分，括起来

搜索结果

其余部分和之前基本一样

3、在linux里面用一句代码抓取下载所有的图片

补充知识

安装curl后可直接使用：cur url返回网页内容，-s表示不打印访问连接信息

curl -s url

正则里面：匹配abc但不想包含abc写法

(?<=abc)

linux管道、搜索语法：| 是管道工具，grep搜索： -o 显示被模式匹配到的字符串，-P 支持正则表达式

数据 | grep -oP ‘正则语法’

linux语法： |xargs 把前面的数据作为一个参数供下个函数使用，-i如果没有指定参数，则使用字符串 "{ }“

数据 |xargs -i curl { } -o

curl 语法：curl -o 下载文件

curl url -o

curl 语法：curl -O指定路径

curl url -O

curl 语法：创建目录

–create-dir

一句代码抓取下载所有的图片

curl -s http：//www.xiachufang.com/|grep -oP '(?<=src=\")http://i2\.chuimg\.com/\w+\.jpg'|xargs -i curl {} -o

目前这些图片会下载到这个窗口的路径下，接下来我们指定一下路径

curl -s http：//www.xiachufang.com/|grep -oP '(?<=src=\")http://i2\.chuimg\.com/\w+\.jpg'|xargs -i curl  --create-dir {} -O ./img/{}

这里的两次{}是同一个东西，也就是前面xargs 过来的url

用 Python 抓取公号文章保存成 HTML

上次为大家介绍了如果用 Python 抓取公号文章并保存成 PDF 文件存储到本地.但用这种方式下载的 PDF 只有文字没有图片,所以只适用于没有图片或图片不重要的公众号,那如果我想要图片和文字下载下 ...
老板又出难题，气得我写了个自动化软件！

关键时间,第一时间送达! 作者:小小明,Pandas数据处理专家,致力于帮助无数数据从业者解决数据处理难题编辑:朱小五,一只不务正业的数据狗日常工作中,领导要求你将一份 Word 文档中的图片存储 ...
CV之FE：基于TF进行FE——去除异常(被损坏)图像和单通道图像

CV之FE:基于TF进行FE--去除异常(被损坏)图像和单通道图像输出结果去除了异常(被损坏)图像 .单通道图像设计思路 1. 部分代码实现 import tensorflow as tf f ...
搞定！在某手上搜索视频，并实现下载

大家好,我是辰哥~ 01 获取搜索链接编写过接口或者开发过网站的小伙伴都知道,对一个服务器上的资源进行请求时,是通过访问链接(接口),服务器进行响应返回数据. 1.搜索请求链接因此,我们第一步先获 ...
我用Python做出真的“字节跳动”！

我用Python做出真的"字节跳动"! Python入门与进阶 2021-07-14 来源:https://blog.csdn.net/hhladminhhl/article/de ...
opencv4.4使用yolov3和yolov4模型检测目标

yolov3: # -*- coding: utf-8 -* import numpy as np import cv2 as cv import os import time yolo_dir = ...
(4条消息) python爬虫之bs4的基本使用

BeautifulSoup可以很方便地查找HTML标签以及其中的属性和内容 import requests from bs4 import BeautifulSoup # 创建BeautifulSou ...
(7条消息) Python爬虫自动化办工实战案例

Python爬虫自动化办工实战案例 ----借助xlwings实现excel调用Python爬虫前言本案例将实现excel集成用户自定义Python函数(xlwings UDFs),并从exc ...
【Python爬虫】：爬取58同城二手房的所有房产标题

我们首先打开58同城的网站: 观察网站的版面: 发现所有的title都是以h3开头,并且具有class为" property-content-title-name " 因此我们可以 ...
【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）

一.确定爬取思路今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来.首先打开网页htttps://gank.io 当中的妹子专栏, 发现里面全是妹子,如下所示: ...
Python爬虫练习：爬取800多所大学学校排名、星级等

前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,"双一流"大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的 ...
Python爬虫进阶：爬取梨视频网站Top排行榜视频数据

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于青灯编程 ,作者:清风 Python爬虫进阶:反反爬实战案例-爬取梨 ...
(3条消息) Python爬取考研数据：所有985高校、六成211高校均可调剂

又到了一年一度的考研出分时间啦,近期有不少朋友让笔者帮他们分析如何提前做好调剂.复试与调剂总是密不可分.今天,给大家分享一些调剂的重要知识点,希望你在调剂的时候,能明白调剂的趋势与规则.也许,大家对于 ...
(3条消息) Python爬取全国高校信息并写入csv

2021-03-23更新原来的页面有一些小的改变, 原来的院校特效一列变成了现在的一流大学建设高校和一流学科建设高校两列, 所以代码需要有一些改变,总的代码已经更新了,至于思路那部分就不改了. ...
(1条消息) python成功爬取拉勾网

python成功爬取拉勾网(一个小白的心里路程) 最开始想爬取拉钩是因为半年前上python实验课的时候,老师给了两个任务,一个时爬取糗百的笑话内容,另一个时爬取拉勾网的职位信息,当时因为课时紧张的缘 ...