urllib2模块是Python标准库中处理HTTP请求的基本工具之一。它支持重定向、cookie、代理等常规功能,同时可以扩展实现更灵活的请求。本文将从多个角度详细介绍urllib2模块的使用。
一、urlopen函数
urlopen函数是urllib2模块最基本的函数,它可以用来打开URL链接。下面是一个使用urlopen函数获取网页内容的代码示例:
import urllib2 response = urllib2.urlopen('https://www.baidu.com/') html = response.read() print html
其中,urlopen方法接收一个网址URL参数,返回的是一个HTTPResponse对象。我们可以使用read方法读取到网页的源代码。
另外,在Python2.x版本中,urlopen方法还可以传入data参数,作为请求的数据。例如:
import urllib2 import urllib data = {'username': 'test', 'password': '123'} data = urllib.urlencode(data) # 将字典类型的数据转为URL编码的字符串 url = 'http://www.example.com/login' req = urllib2.Request(url, data) response = urllib2.urlopen(req) result = response.read() print result
其中,通过urllib.urlencode方法将data转为URL编码字符串,并通过urllib2.Request构造Request对象,最后传入urlopen函数即可。
二、urllib库
urllib与urllib2是Python标准库中的两个HTTP客户端工具库,常见任务包括发送请求,处理响应数据等。下面介绍一些常用的urllib库相关操作。
1. urlretrieve方法
urlretrieve方法可以将远程数据下载到本地。下面是一段例子:
import urllib url = 'http://www.example.com/example.jpg' urllib.urlretrieve(url, 'example.jpg')
其中,urllib.urlretrieve(url, filename=None, reporthook=None, data=None)方法接收四个参数:远程资源URL链接,保存本地文件的文件名,下载进度反馈函数,post提交的数据等。
2. urlencode方法
urlencode方法可以将字典类型的数据转为URL编码的字符串。下面是一个例子:
import urllib data = {'name': 'test', 'age': 20} data = urllib.urlencode(data) print data
运行结果为:name=test&age=20
3. quote/ unquote方法
quote/ unquote方法可以将字符串进行URL编码和解码。例如:
import urllib str1 = 'hello world' str_encode = urllib.quote(str1) print str_encode str_decode = urllib.unquote(str_encode) print str_decode
运行结果分别为:hello%20world和hello world
三、其他功能
1. 设置请求头
在请求中加入headers参数,可以用来设置请求头。
import urllib2 url = 'http://www.example.com' headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'} req=urllib2.Request(url, headers=headers) response = urllib2.urlopen(req) html = response.read() print html
2. 设置代理
可以使用urllib2中的ProxyHandler类来设置代理。下面是一个例子:
import urllib2 proxy_support = urllib2.ProxyHandler({'http': 'http://username:password@proxy_address:port'}) opener = urllib2.build_opener(proxy_support) urllib2.install_opener(opener) response = urllib2.urlopen('http://www.example.com') html = response.read() print html
3. 处理Cookie
urllib2同时支持处理Cookie。下面是一个例子:
import urllib2 import cookielib cookie = cookielib.CookieJar() handler = urllib2.HTTPCookieProcessor(cookie) opener = urllib2.build_opener(handler) response = opener.open('http://www.example.com') for item in cookie: print '%s=%s' % (item.name, item.value)
这里我们先创建一个CookieJar的实例,然后通过HTTPCookieProcessor(handler)创建一个处理器对象handler,最后创建一个Opener对象opener并且安装处理器。这样我们就可以发送请求并且处理Cookie了。
本文介绍了urilib2模块的基本操作以及urllib库的常用方法。通过上述内容的学习,希望读者可以更加深入地了解Python中的HTTP请求操作。