官方文檔地址:https://docs./3/library/urllib.html 什么是UrllibUrllib是python內(nèi)置的HTTP請求庫 urlopen關(guān)于urllib.request.urlopen參數(shù)的介紹: url參數(shù)的使用 先寫一個簡單的例子: import urllib.request response = urllib.request.urlopen('http://www.baidu.com') print(response.read().decode('utf-8')) urlopen一般常用的有三個參數(shù),它的參數(shù)如下: data參數(shù)的使用 上述的例子是通過請求百度的get請求獲得百度,下面使用urllib的post請求 import urllib.parse import urllib.request data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding='utf8') print(data) response = urllib.request.urlopen('http:///post', data=data) print(response.read()) 這里就用到urllib.parse,通過bytes(urllib.parse.urlencode())可以將post數(shù)據(jù)進行轉(zhuǎn)換放到urllib.request.urlopen的data參數(shù)中。這樣就完成了一次post請求。 timeout參數(shù)的使用 import urllib.request response = urllib.request.urlopen('http:///get', timeout=1) print(response.read()) 運行之后我們看到可以正常的返回結(jié)果,接著我們將timeout時間設(shè)置為0.1 所以我們需要對異常進行抓取,代碼更改為 import socket import urllib.request import urllib.error try: response = urllib.request.urlopen('http:///get', timeout=0.1) except urllib.error.URLError as e: if isinstance(e.reason, socket.timeout): print('TIME OUT') 響應(yīng)響應(yīng)類型、狀態(tài)碼、響應(yīng)頭 import urllib.request response = urllib.request.urlopen('https://www.') print(type(response)) 可以看到結(jié)果為:<class 'http.client.httpresponse'=""> 當然上述的urlopen只能用于一些簡單的請求,因為它無法添加一些header信息,如果后面寫爬蟲我們可以知道,很多情況下我們是需要添加頭部信息去訪問目標站的,這個時候就用到了urllib.request request設(shè)置Headers 寫一個簡單的例子: import urllib.request request = urllib.request.Request('https://') response = urllib.request.urlopen(request) print(response.read().decode('utf-8')) 給請求添加頭部信息,從而定制自己請求網(wǎng)站是時的頭部信息 from urllib import request, parse url = 'http:///post' headers = { 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)', 'Host': '' } dict = { 'name': 'zhaofan' } data = bytes(parse.urlencode(dict), encoding='utf8') req = request.Request(url=url, data=data, headers=headers, method='POST') response = request.urlopen(req) print(response.read().decode('utf-8')) 添加請求頭的第二種方式 from urllib import request, parse url = 'http:///post' dict = { 'name': 'Germey' } data = bytes(parse.urlencode(dict), encoding='utf8') req = request.Request(url=url, data=data, method='POST') req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') response = request.urlopen(req) print(response.read().decode('utf-8')) 這種添加方式有個好處是自己可以定義一個請求頭字典,然后循環(huán)進行添加 高級用法各種handler 代理,ProxyHandler 通過rulllib.request.ProxyHandler()可以設(shè)置代理,網(wǎng)站它會檢測某一段時間某個IP 的訪問次數(shù),如果訪問次數(shù)過多,它會禁止你的訪問,所以這個時候需要通過設(shè)置代理來爬取數(shù)據(jù) import urllib.request proxy_handler = urllib.request.ProxyHandler({ 'http': 'http://127.0.0.1:9743', 'https': 'https://127.0.0.1:9743' }) opener = urllib.request.build_opener(proxy_handler) response = opener.open('http:///get') print(response.read()) cookie,HTTPCookiProcessor cookie中保存中我們常見的登錄信息,有時候爬取網(wǎng)站需要攜帶cookie信息訪問,這里用到了http.cookijar,用于獲取cookie以及存儲cookie import http.cookiejar, urllib.request cookie = http.cookiejar.CookieJar() handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') for item in cookie: print(item.name+"="+item.value) 同時cookie可以寫入到文件中保存,有兩種方式http.cookiejar.MozillaCookieJar和http.cookiejar.LWPCookieJar(),當然你自己用哪種方式都可以 具體代碼例子如下: import http.cookiejar, urllib.request filename = "cookie.txt" cookie = http.cookiejar.MozillaCookieJar(filename) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') cookie.save(ignore_discard=True, ignore_expires=True) http.cookiejar.LWPCookieJar()方式 import http.cookiejar, urllib.request filename = 'cookie.txt' cookie = http.cookiejar.LWPCookieJar(filename) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') cookie.save(ignore_discard=True, ignore_expires=True) 同樣的如果想要通過獲取文件中的cookie獲取的話可以通過load方式,當然用哪種方式寫入的,就用哪種方式讀取。 import http.cookiejar, urllib.request cookie = http.cookiejar.LWPCookieJar() cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') print(response.read().decode('utf-8')) 異常處理在很多時候我們通過程序訪問頁面的時候,有的頁面可能會出現(xiàn)錯誤,類似404,500等錯誤 from urllib import request,error try: response = request.urlopen("http:///1111.html") except error.URLError as e: print(e.reason) 上述代碼訪問的是一個不存在的頁面,通過捕捉異常,我們可以打印異常錯誤 這里我們需要知道的是在urllb異常這里有兩個個異常錯誤: URLError里只有一個屬性:reason,即抓異常的時候只能打印錯誤信息,類似上面的例子 HTTPError里有三個屬性:code,reason,headers,即抓異常的時候可以獲得code,reson,headers三個信息,例子如下: from urllib import request,error try: response = request.urlopen("http:///1111.html") except error.HTTPError as e: print(e.reason) print(e.code) print(e.headers) except error.URLError as e: print(e.reason) else: print("reqeust successfully") 同時,e.reason其實也可以在做深入的判斷,例子如下: import socket from urllib import error,request try: response = request.urlopen("http://www./",timeout=0.001) except error.URLError as e: print(type(e.reason)) if isinstance(e.reason,socket.timeout): print("time out") URL解析urlparse urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True) 功能一: from urllib.parse import urlparse result = urlparse("http://www.baidu.com/index.html;user?id=5#comment") print(result) 結(jié)果為: 這里就是可以對你傳入的url地址進行拆分 urlunpars 其實功能和urlparse的功能相反,它是用于拼接,例子如下: from urllib.parse import urlunparse data = ['http','www.baidu.com','index.html','user','a=123','commit'] print(urlunparse(data)) 結(jié)果如下 urljoin 這個的功能其實是做拼接的,例子如下: from urllib.parse import urljoin print(urljoin('http://www.baidu.com', 'FAQ.html')) print(urljoin('http://www.baidu.com', 'https:///FAQ.html')) print(urljoin('http://www.baidu.com/about.html', 'https:///FAQ.html')) print(urljoin('http://www.baidu.com/about.html', 'https:///FAQ.html?question=2')) print(urljoin('http://www.baidu.com?wd=abc', 'https:///index.php')) print(urljoin('http://www.baidu.com', '?category=2#comment')) print(urljoin('www.baidu.com', '?category=2#comment')) print(urljoin('www.baidu.com#comment', '?category=2')) 結(jié)果為: 從拼接的結(jié)果我們可以看出,拼接的時候后面的優(yōu)先級高于前面的url urlencode from urllib.parse import urlencode params = { "name":"zhaofan", "age":23, } base_url = "http://www.baidu.com?" url = base_url+urlencode(params) print(url) 結(jié)果為:
|
|