Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是 urllib、requests这两个模块。
urlib 介绍
urllib.request 提供了一个 urlopen 函数,来实现获取页面。支持不同的协议、基本验证、cookie、代理等特性。
urllib 有两个版本 urllib 以及 urllib2。
urllib2 能够接受 Request 对象,urllib 则只能接受 url。
urllib 提供了 urlencode 函数来对GET请求的参数进行转码,urllib2 没有对应函数。
urllib 抛出了 一个 URLError 和一个 HTTPError 来处理客户端和服务端的异常情况。
Requests 介绍
Requests 是一个简单易用的,用Python编写的HTTP库。这个库让我们能够用简单的参数就完成HTTP请求,而不必像 urllib 一样自己指定参数。同时能够自动将响应转码为Unicode,而且具有丰富的错误处理功能。
- International Domains and URLs
- Keep-Alive & Connection Pooling
- Sessions with Cookie Persistence
- Browser-style SSL Verification
- Basic/Digest Authentication
- Elegant Key/Value Cookies
- Automatic Decompression
- Unicode Response Bodies
- Multipart File Uploads
- Connection Timeouts
- .netrc support
- List item
- Python 2.6—3.4
- Thread-safe
以下为一些示例代码,本文环境为 Python 3.6.0
无需参数直接请求单个页面
1 | import urllib |
HTTP 是基于请求和响应的工作模式,urllib.request 提供了一个 Request 对象来代表请求,因此上面的代码也可以这么写
1 | req = urllib.request.Request('http://www.baidu.com') |
Request对象可以增加header信息
1 | req = urllib.request.Request('http://www.baidu.com') |
或者直接将 header 传入 Request 构建函数。
带参数的 GET 请求
带有参数的请求和上面的例子本质一样,可以事先拼出URL请求字符串,然后再进行请求。
本例使用了腾讯的股票API,可以传入不同的股票代码以及日期,查询对应股票在对应时间的价格、交易信息。
1 | # 使用带参数的接口访问 |
发送 POST 请求
urllib 没有单独区分 GET 和 POST 请求的函数,只是通过 Request 对象是否有 data 参数传入来判断。
1 | import urllib.parse |
参考资料:
1、python3 urllib.request 网络请求操作
2、Python3学习笔记(urllib模块的使用)
3、Python模拟登录的几种方法
4、What are the differences between the urllib, urllib2, and requests module?
5、python3 urllib和requests模块