Python爬取IP代理，让你构建IP代理池（附源码）

2024-06-25 10:21:12

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

基本开发环境

Python 3.6
Pycharm

一、确定目标需求

获取代理IP地址，端口然后对IP进行检测

二、网站数据分析

网站是静态网页，是可以直接获取数据的。

根据re、xpath或者css选择器都是可以提取数据的，还是比较简单的。爬取IP主要是因为在使用爬虫频繁抓取数据的时候，某些网站是比较容易被封IP的。

虽然网站有很多关于免费的IP代理可以使用，但是基本上都是用不了的。

完整代码

import requests  # 第三方模块
import parsel
import time  # 时间模块

def check_ip(proxies_list):
    """检测代理ip的可用性"""

    use_proxy = []
    for ip in proxies_list:
        try:
            response = requests.get(url='https://www.baidu.com', proxies=ip, timeout=2)
            if response.status_code == 200:
                use_proxy.append(ip)
        except Exception as e:
            print('当前代理ip: ', ip, '请求超时, 检测不合格!!!')
        else:
            print('当前代理ip: ', ip, '检测通过')

    return use_proxy

proxy_list = []

for page in range(1, 11):
    time.sleep(0.5)
    print(f'==================正在抓取第{page}页数据================')
    # 1.确定数据所在地址<url>(分析网页性质<静态网页\动态网页>)
    url = f'http://www.ip3366.net/?stype=1&page={page}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}

    # 2.发送网络请求
    response = requests.get(url=url, headers=headers)
    html_data = response.text  # str
    # print(html_data)

    # 3.解析数据
    # 3.1 转换数据类型
    selector = parsel.Selector(html_data)
    # 3.2 数据提取
    trs = selector.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')  # tr

    """
    # 代理ip的结构
        proxies_dict = {
            "http": "http://" + ip:端口,
            "https": "http://" + ip:端口,
        }
    """

    for tr in trs:
        ip_num = tr.xpath('./td[1]/text()').get()
        ip_port = tr.xpath('./td[2]/text()').get()
        # print(ip_num, ip_port)

        ip_proxy = ip_num + ':' + ip_port
        # print(ip_proxy)

        proxies_dict = {
            'http': "http://" + ip_proxy,
            'https': "https://" + ip_proxy
        }

        # 4.数据的保存
        proxy_list.append(proxies_dict)
        print('保存成功:', proxies_dict)

print(proxy_list)
print('获取到的代理ip数量: ', len(proxy_list))

print('============================正在检测代理===================================')
can_use = check_ip(proxy_list)
print('可用代理:', can_use)
print('可用代理数量:', len(can_use))

爬取了100IP代理，最终可以使用的就只有一个，事实证明还是付费的香

Python爬虫：爬取需要登录的网站

不少伙伴学爬虫,这就出一期Python爬虫教程,文末总结的有视频教程,自己按需学习哈! 爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为.这种时候建议通过登录的方式,获取目标网站的 ...
一起学爬虫（Python） — 02

一起学爬虫(Python) - 19 年轻人,进来学自动化今天要学会爬 requests模块什么是requests模块如何安装requests模块怎么用requests模块实战! reque ...
python的常用内建模块与常用第三方模块

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理一.常用内置模块 1.datetime Python 提供了一个 time 和 calendar 模 ...
Python Urllib和urllib2哪个模块好？Python入门

Python是一门高级的编程语言,它语法简单.清晰,容易入门,可用的包.库.模块有很多,即便是初学者也能够快速实现简单的网络爬虫,那么你知道Python中爬虫模块有哪些吗?我们一起来看看吧. Pyth ...
教你自己搭建一个ip池(绝对超好用！！！！)

随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看. 不返回数据,而且还甩一句话是不是很熟悉啊? 要想想看,人是怎么访问网站的? 发请求,对,那么就会带有 request.h ...
爬虫精进6

---------如有疑问,欢迎交流指正-------- 第6关练习-储存电影信息-参考第一步:分析问题,明确结果问题需求就是把豆瓣TOP250里面的序号/电影名/评分/推荐语/链接都爬取下 ...
编程语言直播跳舞的小姐姐穿的越来越凉快了？Python爬取颜值/舞蹈区小姐姐视频（懂得

本文主要知识点: 爬虫基本流程 re正则表达式 (内置模块) requests >>> pip install requests 在CMD 命令符 win + R json数据解析方 ...
scrapy实践之中间件的使用

在scrapy框架中,Downloader Middlewares 称之为下载中间件, 可以对爬虫的requests请求进行封装处理,典型的应用有以下3种 1. 添加用户代理所有的中间件代码都保存在 ...
Python爬取某网站文档数据完整教程（附源码）

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import osimp ...
python轻松爬取全国40城5000 地铁站点数据！附源码和数据集

有时候,爬虫爬到的数据是很珍贵.很稀缺,但是在实际项目最好还是多点谨慎,保证万无一失. 今天介绍一种新的获取城市地铁站点数据的方法,而且不再只是北上广深四个城市,而是全国开通地铁的城市. 对了,你 ...
终于有人把Python算法-动态规划讲明白了，建议收藏！（附源码下载）

多年工作经验,水平优秀的你,是否在面试中曾经陷入过算法的囚徒困境? 搞不清晦涩难懂的算法理论自学效率低付出了大量的学习时间,看到复杂多变的算法题,无从下手,一脸懵逼... 无论腾讯.阿里还是字节跳 ...
用Python爬取东方财富网上市公司财务报表

摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术.有的网页虽然也用Ajax技术,但接口参数可能是加密的无法直接获得,比如淘宝:有的动态网页也采用JavaScript,但 ...
Python爬取某平台短视频，把你喜欢的视频下收藏起来

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import osimp ...
用 Python 爬取各类基金数据并动态展示

以下文章来源于Python爬虫数据分析挖掘 ,作者李运辰 Python爬虫数据分析挖掘四年的编程开发爱好者,分享日常编程学习和接私活过程,记录生活,共同进步.关注小白,编程快乐 01 前言去年接触 ...
Python爬取视频网站弹幕，并做成词云图

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者:张同学来源:凹凸数据 Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 ht ...
Python爬取网易云音乐辑的图片、专辑名和专辑出版时间

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者:阿里波特来源:CSDN Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 h ...
python爬取7w+『赘婿』弹幕，发现弹幕比剧还精彩！

python爬取7w+『赘婿』弹幕，发现弹幕比剧还精彩！

Python爬取IP代理，让你构建IP代理池（附源码）

前言

基本开发环境

相关模块的使用

一、确定目标需求

二、网站数据分析

完整代码

相关推荐