构建User-Agnet代理池

在编写爬虫程序时,一般都会构建一个User-Agent(用户代理)池,就是把多个浏览器的UA信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个UA来访问网站,因为短时间内总使用一个UA高频率访问的网站,可能会引起网站的警觉,从而封杀掉IP。

自定义UA代理池

构建代理池的方法也非常简单,在您的Pycharm工作目录中定义一个ua_info.py文件,并将以下UA信息以列表的形式粘贴到该文件中,如下所示:

ua_list = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11', 'User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11', 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0', ' Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1', ' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]123456789101112复制代码类型:[python]

经过上述操作,用户代理池就构建成功。

模块随机获取UA

您也可以使用专门第三方的模块来随机获取浏览器UA信息,不过该模块需要单独安装,安装方式如下:

pip install fake-useragent1复制代码类型:[python]

下载安装成功后,演示如下代码:

from fake_useragent import UserAgent#实例化一个对象ua=UserAgent()#随机获取一个ie浏览器uaprint(ua.ie)
print(ua.ie)#随机获取一个火狐浏览器uaprint(ua.firefox)
print(ua.firefox)123456789复制代码类型:[python]

输出结果:

#随机获取ie的ua信息Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/4.0; GTB7.4; InfoPath.3; SV1; .NET CLR 3.1.76908; WOW64; en-US)
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0
#随机获取火狐的ua信息Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0Mozilla/5.0 (Windows NT 5.0; rv:21.0) Gecko/20100101 Firefox/21.0
(0)

相关推荐

  • 【科研工具】Mac系统如何使用IE浏览器模式?

    在平时需要填写一些系统信息时,针对Mac系统用户可能会出现如下提示,需要使用IE浏览器才能完成接下来的操作,或者在某些网页界面显示不正常时,也需要调整为IE浏览器才能正常操作. 那么针对这种情况,有什 ...

  • 浏览器的“套娃行为”有多凶残?

    几乎所有的中国网民都不会忘记 2010 年的"3Q大战". 在腾讯做出那个"非常艰难的决定"之后,360 不但不能与 QQ 同时安装了,使用 360 浏览器的用 ...

  • fake-useragent库:值得花2分钟学习的库

    前几天意外找到一个简单实用的库- fake-useragent,可以伪装生成headers请求头中的User Agent值.再也不用,重复做复制粘贴这种很Low的工作了. 安装 pip3 instal ...

  • 宝塔面板nginx防火墙非浏览器拦截真的有用吗?

    更新8.7.3版nginx防火墙后,小白发现多了一个"非浏览器拦截".宝塔官网对此功能只说明了建议开启此功能,拦截非浏览器请求,此开关将应用所有网站(建议开).但是小白实测开启后会 ...

  • Python爬取IP代理,让你构建IP代理池(附源码)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import reque ...

  • 把握投资边界 构建长期成长股票池

    今年1月时市场还比较热,但进入牛年后,A股的核心资产遭遇了一波下跌.目前,一些优质资产要比1月时更便宜.不过,现在很多A股资产的估值也只是处于合理区间,还谈不上是"黄金坑".因为& ...

  • 云函数实现免费代理池

    注册腾讯云,实名认证,搜索云函数. 新建 自定义创建-GO环境-本地上传zip包(服务端) 触发管理-创建触发器 API网关触发-新建API服务-集成相应(打勾) 如下图所示 打开客户端,修改配置文件 ...

  • 深度收藏:传统企业如何通过“7个起来”和“5个在线”,构建私域流量池

    7个在线的实现要领 传统的销售员,每天都在线下跑,每个人都会有一个公文包,公文包里装满了辅助销售的各种资料,如名片.宣传册.产品介绍.报价单.客户案例等.销售每天出去拜访不同的客户,需要记录每个客户的 ...

  • 微信直播功能已推出,微商如何构建私域流量池?

    在直播火了之后,微信团队积极布局直播,小程序直播有了,群直播也有了,就连去年万众期待的视频号也开通了直播功能,可以说微商的春天来了. 在2019年,微商.网络销售等经营主体被纳入电子商务法的调整范围, ...

  • 构建“私域流量池”,一定要搞清楚这些规则

    来源:CMO训练营服务号(ID:gh_0c022a338dd4) 1    经济下行,企业如何去增长 1.流量困境 流量成本决定了企业的交易成本,影响企业利润,流量费用过高,利润就会下降,越是好的媒介 ...

  • python多线程 代理池爬取天天基金网、股票数据过程解析

    简介 提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段.为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作. 本次使用天天基金 ...

  • 全流程详解企业如何构建私域流量池

    构建私域流量这已经不是什么新鲜的话题了!越来越多的企业,已经投身其中,渴望通过私域流量运营,实现企业业务增长.但从现实角度来看,真正实现的其实并不多!绝大多数企业,所谓的构建私域流量,其实更多的只是在 ...

  • 构建“私域流量池”,一定要搞清楚这些盲点和风险

    近年来,行业的发展促进了私域流量的产生,由黑客增长转变为私域流量.那么,什么是私域流量? 一.你怎么理解私域流量 从字面上理解,就是公域流量的相对应的另外一个词,私域流量,就是在流量池中,我们不用付费 ...