Crawler：反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上（以百度贴吧为例）获得你喜欢的照片下载到本地电脑上

2024-08-04 06:13:33

Crawler：反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上（以百度贴吧为例）获得你喜欢的照片下载到本地电脑上

输出结果

后期更新……

实现代码

import urllib.request<br>import re
import os

def open_url(url):
    req=urllib.request.Request(url)
    req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.2.1.17116")
    page=urllib.request.urlopen(req)
    html=page.read().decode("utf-8")
    return html

def get_img(html):
    p=r'<img class="BDE_Image" src="([^"]+\.jpg)"'
    imglist=re.findall(p,html)
    for each in imglist:
        print(each)

    for each in imglist:
        filename=each.split("/")[-1]
        urllib.request.urlretrieve(each, filename,None)

if __name__=="__mian__":
    url="http://tieba.baidu.com/p/3563409202"
    get_img(open_url(url))                    

url="http://tieba.baidu.com/p/3563409202"
get_img(open_url(url))

相关文章
Py之Crawler：利用python的爬虫功能实现从各种网站上（以百度贴吧为例）获得你喜欢的照片下载到本地电脑上

赞 (0)

第一个Python爬虫程序

本节编写一个最简单的爬虫程序,作为学习Python爬虫前的开胃小菜. 下面使用Python内置的urllib库获取网页的html信息.注意,urllib库属于Python的标准库模块,无须单独安装,它 ...
Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片

2017.04.27 16:34:04字数 915阅读 1,958 一.前言这是我第一次写文章,作为一个非计算机,编程类专业的大二学生,我希望能够给像我这样的入门的朋友一些帮助,也同时激励自己努力写 ...
Crawler：反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹

Crawler:反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地址随机选取)+实现下载某网址上所有的图片到指定文件夹导读基于反爬虫机制之基于urllib库+伪装浏览器+代理访问(代理地 ...
Crawler/ML：爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类

Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类网上教程太 ...
Crawler：基于urllib库+实现爬虫有道翻译

Crawler:基于urllib库+实现爬虫有道翻译输出结果后期更新-- 设计思路第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的. 第二步:理解反爬虫机制,找出加密参数.大 ...
Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内输出结果 4月有31天?wha ...
Crawler：基于urllib库获取cn-proxy代理的IP地址

Crawler:基于urllib库获取cn-proxy代理的IP地址输出结果后期更新-- 实现代码 import urllib.request import re import os print( ...
Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海.北京关于区块链职位的求职信息输出结果 1.上海区块链职位国内某知名招聘网上海关于区块链职位的求职信息分析图 2.北京 ...
Crawler：基于BeautifulSoup库+requests库+伪装浏览器的方式实现爬取14年所有的福彩网页的福彩3D相关信息，并将其保存到Excel表格中

Crawler:Python爬取14年所有的福彩信息,利用requests库和BeautifulSoup模块来抓取中彩网页福彩3D相关的信息,并将其保存到Excel表格中输出结果中国彩票网本来想 ...
Crawler：基于requests库+urllib3库+伪装浏览器实现爬取抖音账号的信息数据

Crawler:Python之Crawler爬取抖音账号的信息数据输出结果更新-- 代码设计 from contextlib import closing import requests, jso ...
Crawler：爬虫基于urllib.request库实现获取指定网址上的所有图片

Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片输出结果核心代码 # coding=gbk import urllib.request import re imp ...