第 61 天:Python Requests 库高级用法

上一篇我们介绍了 Requests 库的基本用法,学会之后大家就可以应付一般的请求了。这一篇我们接着介绍 Requests 的高级用法,以便应付一些棘手的问题。

会话维持

在 requests 中,直接使用 get() 或 post() 方法确实可以做到模拟网页的请求,但是这实际上是两个不同的会话,相当于用了两个浏览器打开不同的页面,而这两个页面是不共享 cookies 的。会话维持相当于打在原来的浏览器上新开了一个页面,这样就不用每次去设置 cookies 了——这就是Session对象。

s = requests.Session()s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')r = s.get("http://httpbin.org/cookies")print(r.text)
# 输出结果{ "cookies": {}}

这里我们请求了一个测试网站,设置了一个 Cookie ,名称为 num ,内容为123456,之后又发起了请求,获取Cookies,结果并没有取到第一次请求的 Cookie。

试想一种常见的场景:我登录一个网站之后,点击里面某个功能的时候,是不需要再登录的,为什么?因为登录操作之后,浏览器与服务器之间就建立了一个 Session ,我在同一浏览器再次请求服务器的时候,共用的是这一个 Session ,所以不用再次登录。那么如果我使用代码去请求呢?按照上面的例子,我请求两次并不会共享 Session,那就没法实现这个场景功能。而 Requests 的会话可以实现这种场景功能。

我们再来看个例子:

session = requests.Session()session.get('http://httpbin.org/cookies/set/num/123456')res = session.get('http://httpbin.org/cookies')print(res.text)
# 输出结果{ "cookies": { "num": "123456" }}

这个例子中,我们使用 Session 对象请求,第一次请求设置的 Cookie ,在第二次请求中我们仍然可以获取到,说明两次请求在同一个 Session 中。

身份认证

在访问网站时,我们经常会遇到需要身份认证的页面,需要输入用户名和密码才能登录网站。这个时候我们可以使用 Requests 自带的身份认证功能。

import requestsfrom requests.auth import HTTPBasicAuth
#请将username和password替换成自己在该网站的登录用户名和密码res = requests.get('http://www.baidu.com', auth=HTTPBasicAuth('username', 'password'))print(res.status_code)
# 输出结果200

如果用户名和密码都正确的话,就会成功,返回200状态码。否则返回401状态码。

SSL 证书验证

现在随处可见 https 开头的网站,Requests 可以为 HTTPS 请求验证 SSL 证书,就像 web 浏览器一样。要想检查某个主机的 SSL 证书,你可以使用 verify 参数:

import requests
r = requests.get('https://httpbin.org', verify=True)print(r.text)

如果想检查验证某个主机的 SSL 证书,就将 verify 设置为 True ,如果证书无效,就会报 requests.exceptions.SSLError 的错误。如果想跳过检查,就将 verify 参数设置为 False。verify 参数默认是 True ,所以如果需要的话,需要手动设置下这个变量。

代理设置

对于某些网站,如果请求几次,或许能正常获取内容。一旦开始爬取,对于大规模的频繁请求,网站可能会弹出验证码,或者跳转到登陆认证,或者封禁IP,导致一定时间内无法访问。此时,就需要设置代理还解决这个问题,就要用到 proxies 参数。

# 代理设置proxies = { 'http': 'http://127.0.0.1:9001', 'https': 'https://127.0.0.2:9002'}requests.get('http://www.baidu.com', proxies=proxies)

这里的两个地址都是编的,仅做示例用。如果你想跑起来的话需要换成有效代理。

SOCKS

除了基本的 HTTP 代理,Request 还支持 SOCKS 协议的代理。这是一个可选功能,若要使用, 你需要安装第三方库。你可以用 pip 获取依赖:

$ pip install requests[socks]

安装好依赖以后,使用 SOCKS 代理和使用 HTTP 代理一样简单:

proxies = { 'http': 'socks5://user:pass@host:port', 'https': 'socks5://user:pass@host:port'}

超时设置

在 Rquests 的基本用法中,我们介绍了超时的用法,通过使用 timeout 参数来配置。例如:

r = requests.get('https://github.com', timeout=5)

我们知道,一个 HTTP 请求会有 connect 和 read 两部分时间,上面的例子中设置的是二者加起来的超时时间。如果要分别制定,我们需要传入一个元组:

r = requests.get('https://github.com', timeout=(3.05, 27))

如果远端服务器很慢,如果你想要 Request 一直等待服务器返回,那么可以给 timeout 赋值 None :

r = requests.get('https://github.com', timeout=None)

总结

本文为大家讲述了几个 Requests 的高级特性,通过掌握这些特性,我们就基本上掌握了 Requests 的常用功能,也可以运用 Requests 去解决实际问题了。我们的 Requests 介绍也就告一段落了,剩下的靠大家去实践出真知了。

文中示例代码:python-100-days

(0)

相关推荐

  • 爬虫入门教程 —— 2

    requests Request 自称是 HTTP for Humans  ,非常的方便. Request 其实底层就是封装的urllib3,它的文档非常的完备,完全可以支持现在的网络需要,可以在py ...

  • python接口自动化测试(四)

    掌握了前面几节的的内容,就可以做一些简单的http协议接口的请求发送了,但是这些还不够.HTTP协议是一个无状态的应用层协议,也就是说前后两次请求是没有任何关系的,那如果我们测试的接口之前有相互依赖关 ...

  • HTTP八种请求类型

    表白:黑白圣堂血天使,天剑鬼刀阿修罗.  讲解对象:/HTTP八种请求类型 作者:融水公子 rsgz 网络安全 网络安全教程 http://www.rsgz.top/post/771.html 1 g ...

  • session的概念Cookie处理

    3.5 Cookie处理 如果响应中包含Cookie的值,可以如下方式获取Cookie字段的值,示例如下: import requests user_agent = 'Mozilla/4.0 (com ...

  • 接口自动化测试利器——Requests

    Python中,系统自带的urllib和urllib2都提供了功能强大的HTTP支持,但是API接口确实太难用了.Requests 作为更高一层的封装,在大部分情况下对得起它的slogan--HTTP ...

  • python接口自动化26-发xml格式post请求

    前言 post请求相对于get请求多一个body部分,body部分常见的数据类型有以下四种(注意是常见的,并不是只有4种) application/x-www-form-urlencoded appl ...

  • 这个男人让你的爬虫开发效率提升8倍

    他叫 Kenneth Reitz.现就职于知名云服务提供商 DigitalOcean,曾是云计算平台 Heroku 的 Python 架构师,目前 Github 上 Python 排行榜第一的用户.( ...

  • Python爬虫:爬取需要登录的网站

    不少伙伴学爬虫,这就出一期Python爬虫教程,文末总结的有视频教程,自己按需学习哈! 爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为.这种时候建议通过登录的方式,获取目标网站的 ...

  • 第 60 天:Python Requests 库的基本使用

    之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来简单介 ...

  • Python北理工mooc爬虫笔记之requests库

    request.get()函数原型 request对象的属性方法 r.text与r.content的区别 r.text是程序根据猜测的响应内容编码方式来编写的,也就是r.encoding,这个编码方式 ...

  • Python的 5 种高级用法,效率提升没毛病!

    任何编程语言的高级特征通常都是通过大量的使用经验才发现的.比如你在编写一个复杂的项目,并在 stackoverflow 上寻找某个问题的答案.然后你突然发现了一个非常优雅的解决方案,它使用了你从不知道 ...

  • Python进阶:切片的误区与高级用法

    众所周知,我们可以通过索引值(或称下标)来查找序列类型(如字符串.列表.元组-)中的单个元素,那么,如果要获取一个索引区间的元素该怎么办呢? 切片(slice)就是一种截取索引片段的技术,借助切片技术 ...

  • Python教程:print()函数高级用法

    前面使用print()函数时,都只输出了一个变量,但实际上print()函数完全可以同时输出多个变量,而且它具有更多丰富的功能. print()函数的详细语法格式如下: print (value,.. ...

  • Python高级用法总结—(列表推导式,迭代器,生成器,装饰器)

    Python高级用法总结-(列表推导式,迭代器,生成器,装饰器) 列表推导式(list comprehensions) 场景1:将一个三维列表中所有一维数据为a的元素合并,组成新的二维列表. 最简单的 ...

  • Python的五种高级用法是什么?

    学习Python的时候,掌握这五种高级用法,可以让你的效率提升数十倍,那么你知道Python的五种高级用法是什么吗?快来看看吧. 第一种:Lambda函数 Python函数一般使用def a_func ...

  • Python利用requests库爬取百度文库vip文章

    本来马上做课设,做课设太烦了,所以只好偷工减料,但是想下载一个百度文库的文章,结果一看还要会员,这作为一个程序员怎么受得了. 这岂不是让一个本不富裕的家庭更加的雪上加霜.那我只能靠Python维持学习 ...

  • Python爬虫小白入门(二)requests库

    一.前言 为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据.网络上的模块.库.包指的都是同一种东西,所以后文中可能会在不同地 ...