python cookie反爬處理的實(shí)現(xiàn)
Cookies的處理
作用保存客戶端的相關(guān)狀態(tài)
在爬蟲(chóng)中如果遇到了cookie的反爬如何處理?
手動(dòng)處理 在抓包工具中捕獲cookie,將其封裝在headers中 應(yīng)用場(chǎng)景:cookie沒(méi)有有效時(shí)長(zhǎng)且不是動(dòng)態(tài)變化
自動(dòng)處理 使用session機(jī)制 使用場(chǎng)景:動(dòng)態(tài)變化的cookie session對(duì)象:該對(duì)象和requests模塊用法幾乎一致.如果在請(qǐng)求的過(guò)程中產(chǎn)生了cookie,如果該請(qǐng)求使用session發(fā)起的,則cookie會(huì)被自動(dòng)存儲(chǔ)到session中.
案例
爬取雪球網(wǎng)中的新聞資訊數(shù)據(jù):https://xueqiu.com/
#獲取一個(gè)session對(duì)象import requestsheaders = { ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36’}session = requests.Session()main_url = ’https://xueqiu.com’ #推測(cè)對(duì)該url發(fā)起請(qǐng)求會(huì)產(chǎn)生cookiesession.get(main_url,headers=headers)url = ’https://xueqiu.com/v4/statuses/public_timeline_by_category.json’params = { ’since_id’: ’-1’, ’max_id’: ’20346152’, ’count’: ’15’, ’category’: ’-1’,}page_text = session.get(url,headers=headers,params=params).json()page_text
到此這篇關(guān)于python cookie反爬處理的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)python cookie反爬內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. 解決python腳本中error: unrecognized arguments: True錯(cuò)誤2. Python使用jupyter notebook查看ipynb文件過(guò)程解析3. php的curl攜帶header請(qǐng)求頭信息實(shí)現(xiàn)http訪問(wèn)的方法4. php網(wǎng)絡(luò)安全中命令執(zhí)行漏洞的產(chǎn)生及本質(zhì)探究5. IntelliJ IDEA創(chuàng)建普通的Java 項(xiàng)目及創(chuàng)建 Java 文件并運(yùn)行的教程6. ajax請(qǐng)求添加自定義header參數(shù)代碼7. python利用os模塊編寫(xiě)文件復(fù)制功能——copy()函數(shù)用法8. 無(wú)線標(biāo)記語(yǔ)言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁(yè)9. php測(cè)試程序運(yùn)行速度和頁(yè)面執(zhí)行速度的代碼10. 解決Python 進(jìn)程池Pool中一些坑
