文章詳情頁

python 爬蟲如何正確的使用cookie

瀏覽：3日期：2022-07-07 09:10:04

很多時候，我們要查看的內容必須要先登錄才能找到，比如知乎的回答，QQ空間的好友列表、微博上關注的人和粉絲等。要使用爬蟲直接登錄抓取這些信息時，有一個不太好解決的難題，就是這些網站設置的登錄規則以及登錄時的驗證碼識別。不過，我們可以想辦法繞過去，思路是這樣的：先使用瀏覽器登錄，從瀏覽器獲取登錄后的“憑證”，然后將這個“憑證”放到爬蟲里，模擬用戶的行為繼續抓取。這里，我們要獲取的憑證就是cookie信息。

這次我們嘗試使用python和cookie來抓取QQ空間上的好友列表。使用的工具是FireFox瀏覽器、FireBug和Python。

獲取cookie

打開FireFox瀏覽器，登錄QQ空間，啟動FireBug，選擇FireBug中的Cookies頁簽，點擊頁簽中的cookies按鈕菜單，選擇“導出本站點的cookie”即可完成cookie的導出。

python 爬蟲如何正確的使用cookie

導出cookie會以一個名為cookies.txt文本文件形式存在。

程序實現

然后我們會使用獲取的cookie新建一個opener來替換之前請求時使用的默認的opener。將獲取的cookies拷貝到程序目錄下，編寫腳本如下：

#!python# encoding: utf-8from http.cookiejar import MozillaCookieJarfrom urllib.request import Request, build_opener, HTTPCookieProcessor DEFAULT_HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'}DEFAULT_TIMEOUT = 360 def grab(url): cookie = MozillaCookieJar() cookie.load(’cookies.txt’, ignore_discard=True, ignore_expires=True) req = Request(url, headers=DEFAULT_HEADERS) opener = build_opener(HTTPCookieProcessor(cookie)) response = opener.open(req, timeout=DEFAULT_TIMEOUT) print(response.read().decode(’utf8’)) if __name__ == ’__main__’: grab(<a rel='external nofollow' >http://user.qzone.qq.com/QQ號/myhome/friends</a>)

因為我們使用的是FireFox瀏覽器導出的cookie文件，所以這里使用的cookieJar是MozillaCookieJar。

執行腳本…然而報錯了：

Traceback (most recent call last): File 'D:/pythonDevelop/spider/use_cookie.py', line 17, in <module> start() File 'D:/pythonDevelop/spider/use_cookie.py', line 9, in start cookie.load(’cookies.txt’, ignore_discard=True, ignore_expires=True) File 'D:Program Filespythonpython35libhttpcookiejar.py', line 1781, in load self._really_load(f, filename, ignore_discard, ignore_expires) File 'D:Program Filespythonpython35libhttpcookiejar.py', line 2004, in _really_load filename)http.cookiejar.LoadError: ’cookies.txt’ does not look like a Netscape format cookies file

問題出在cookies文件上，說是不像一個Netscape格式的cookie文件。不過也好解決，只需要在cookies文件開始一行添加如下內容即可：

# Netscape HTTP Cookie File

通過這行內容提示python cookie解析器這是一個FireFox瀏覽器適用的cookie。

再次執行，還是會報錯，因為比較長我就只貼關鍵的部分出來：

http.cookiejar.LoadError: invalid Netscape format cookies file ’cookies.txt’: ’.qzone.qq.comtTRUEt/tFALSEtblablatdynamic’

意思是cookie中某些行存在格式錯誤。具體錯在哪兒，需要先了解下FireFox瀏覽器的cookie格式。MozillaCookieJar認為每行cookie需要包含以下信息，每條信息以制表符分隔：

名稱 domain domain_specified path secure expires name value 類型字符串布爾型字符串布爾型長整型字符串字符串說明域名 — 適用路徑是否使用安全協議過期時間名稱值

其中domain_specified是什么意思我不很清楚，以后弄明白了再補上。再來看看我們獲取的cookie的部分行：

user.qzone.qq.comFALSE/FALSE814849905_todaycount0user.qzone.qq.comFALSE/FALSE814849905_totalcount0.qzone.qq.comTRUE/FALSE1473955201LoadingYes.qzone.qq.comTRUE/FALSE1789265237QZ_FE_WEBP_SUPPORT0

前兩行格式是錯誤的，后兩行格式是正確的。前兩行缺少“expires”屬性。該怎么辦呢——補上就好了唄。在其他的cookie中隨意選一個時間補上就OK了。

補全cookie后，再次執行是正常的，沒有報錯。但是沒有如預期的打印出好友信息，因為網址錯了。使用firebug可以找出正確的網址：

https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_ship_manager.cgi?uin=QQ號&do=1&rd=0.44948123599838985&fupdate=1&clean=0&g_tk=515169388

這樣就抓取到好友列表了。好友列表是一個json字符串。

python 爬蟲如何正確的使用cookie

至于如何解析json，會在下一節進行說明。

動態獲取cookie

cookie是有過期時間的。如果想長時間抓取網頁，就需要每隔一段時間就更新一次cookie。如果都是從FireFox瀏覽器來手動獲取顯得有些笨了。從瀏覽器獲取的cookie只是作為一個入口，之后再進行請求還是要依靠python主動獲取cookie。下面是一段獲取cookie的程序：

#!python# encoding: utf-8from http.cookiejar import CookieJarfrom urllib.request import Request, HTTPCookieProcessor, build_opener DEFAULT_HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'}DEFAULT_TIMEOUT = 360 def get(url): cookie = CookieJar() handler = HTTPCookieProcessor(cookie) opener = build_opener(handler) req = Request(url, headers=DEFAULT_HEADERS) response = opener.open(req, timeout=DEFAULT_TIMEOUT) for item in cookie:print(item.name + ' = ' + item.value) response.close()

在示例程序中演示了如何獲取cookie，并打印了cookie的name和value兩項屬性。通過實例可以看到每次執行http請求都會重新獲取cookie，因此可以將我們的程序調整一下：執行第一次請求時使用我們通過瀏覽器獲取的cookie，之后的每次請求都可以使用上次請求時獲取的cookie。調整后的程序：

#!python# encoding: utf-8from http.cookiejar import MozillaCookieJar, CookieJarfrom urllib.request import Request, build_opener, HTTPCookieProcessor, urlopen DEFAULT_HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'}DEFAULT_TIMEOUT = 360 def gen_login_cookie(): cookie = MozillaCookieJar() cookie.load(’cookies.txt’, ignore_discard=True, ignore_expires=True) return cookie def grab(cookie, url): req = Request(url, headers=DEFAULT_HEADERS) opener = build_opener(HTTPCookieProcessor(cookie)) response = opener.open(req, timeout=DEFAULT_TIMEOUT) print(response.read().decode('utf8')) response.close() def start(url1, url2): cookie = gen_login_cookie() grab(cookie, url1) grab(cookie, url2) if __name__ == ’__main__’: u1 = 'https://user.qzone.qq.com/QQ號/myhome/friends' u2 = 'https://h5.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_ship_manager.cgi?uin=QQ號&do=2&rd=0.44948123599838985&fupdate=1&clean=0&g_tk=515169388' start(u1, u2)

就這樣。

其他

其實在登錄QQ空間時使用cookie還有另一種法子——通過觀察，也可以在http 請求頭中添加cookie信息。

獲取請求頭中cookie的方式：打開FireFox瀏覽器，打開FireBug并激活FireBug的network頁簽，在FireFox瀏覽器上登錄QQ空間，然后在FireBug中找到登錄頁請求，然后就可以找到請求頭中的cookie信息了。

python 爬蟲如何正確的使用cookie

將cookie信息整理成一行，添加到請求頭中就可以直接訪問了。這個方法相對簡單，減少了修改cookie文件的步驟。

此外，在一篇博客文章中還找到了直接登錄QQ空間的方案。這算是已知最好的法子了，只要騰訊不改變登錄規則就能很簡單的執行請求獲取cookie。不過年代久遠，不知規則是否還適用

以上就是python 爬蟲如何正確的使用cookie的詳細內容，更多關于python 爬蟲使用cookie的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 對一幅灰度圖像進行直方圖均衡化下一條：python+requests實現接口測試的完整步驟

相關文章：

1. 告別AJAX實現無刷新提交表單2. Xml簡介_動力節點Java學院整理3. Vue+elementUI下拉框自定義顏色選擇器方式4. 使用css實現全兼容tooltip提示框5. css進階學習選擇符6. 低版本IE正常運行HTML5+CSS3網站的3種解決方案7. CSS hack用法案例詳解8. 詳解盒子端CSS動畫性能提升9. CSS3實例分享之多重背景的實現(Multiple backgrounds)10. 小技巧處理div內容溢出

排行榜

					
					10個技巧，讓你在 2017 年成為更好的Node開發者
如何手寫簡易的 Vue Router
關于Java JDK安裝、配置環境變量的問題
python 實現倒計時功能(gui界面)
el-table表格動態合并相同數據單元格(可指定列+自定義合并)
一個 2 年 Android 開發者的 18 條忠告
如何用python實現一個HTTP連接池
使用Django實現把兩個模型類的數據聚合在一起
小技巧處理div內容溢出
Django 解決model 反向引用中的related_name問題
詳解盒子端CSS動畫性能提升