文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？

瀏覽：130日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網站，我需要判斷網頁是否可以爬取，第一反應是通過狀態碼來判斷，但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態碼卻是200，結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題，但是現在也不能用狀態碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態碼，是網絡連接狀態，所以你只判斷200并不能滿足所有網站。

其次，寫爬蟲嘛，你應該實際去看看這些網站的規則是什么，可以先人工判斷下，找找規律，比如看看網頁返回內容是不是有什么特點之類的。

回答2：

做個網頁內容的判斷，如果他網頁里面沒有內容就直接返回。

回答3：

就算是頁面狀態碼200，返回的404頁面，應該和正常能爬取的頁面html有不同的html元素吧，根據有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內如何跳轉至其他頁面。下一條：Python做掃描，發包速度實在是太慢了，有優化的方案嗎？

相關文章：

1. bootstrp是col-md-12列的,只有col-md-10有內容,可以讓沒有內容的不占據位置嗎;2. java - 如何用圖畫的方式有效地表示多線程？3. wordpress里，這樣的目錄列表是屬于小工具還是啥？4. 百度地圖 - Android app中準備接入地圖sdk，百度VS高德哪個好一點？5. python 3.4 error: Microsoft Visual C++ 10.0 is required6. 我的怎么不顯示啊，話說有沒有QQ群什么的7. mysql federated引擎無法開啟8. 常量在外面不加引號會報錯。9. sublime text3安裝package control失敗10. android - 請問一下類似QQ音樂底部播放在每個頁面都顯示是怎么做的？

排行榜

					
					bootstrp是col-md-12列的,只有col-md-10有內容,可以讓沒有內容的不占據位置嗎;
java - 如何用圖畫的方式有效地表示多線程？
vue.js - 關于Vue-cli項目在VPS中用Nginx部署完請求頁面app.js找不到提示404錯誤。
wordpress里，這樣的目錄列表是屬于小工具還是啥？
常量在外面不加引號會報錯。
java - spring boot 如何打包成asp.net core 那種獨立應用?
請問這套課程是否是《函數與閉包》最后提到的講閉包案例的課程？
無法添加事件
android - 請問一下 類似QQ音樂底部播放 在每個頁面都顯示 是怎么做的？
java - idea創建多modules項目后，tomcat啟動失敗
javascript - 全局安裝 vue-cli 最后一步運行 npm run dev 報錯
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？