文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽：120日期：2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時，利用itemloader這個類，使用selector取出的值為空時，進(jìn)入scrapy.Field()里調(diào)用filter()，selector取值不為空的確返回'有值'，如果selector取出[]或'',那么value進(jìn)入filter()之后，并不會返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了，熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值，經(jīng)過filyer()之后變成'無值'

問題解答

回答1：

謝邀~不太了解Scrapy，所以題主這個我不太好說我用PHP自己寫的爬蟲大體思路是：1.先是根據(jù)正則和一些循環(huán)，把要收集的頁面放到隊(duì)列里，按類別分類，例如分頁的列表頁一個隊(duì)列，列表里的數(shù)據(jù)內(nèi)容頁一個隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù)，爬取的過程中對一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù)，按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣，我絕對大部分爬蟲框架也大概都是這種思路吧，無非是在此基礎(chǔ)上增加了，反爬機(jī)制，多線程，多進(jìn)程，增量爬取等等功能。所以，題主找到你這個框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

Python 編程

上一條：python - 面對一串含有亂碼的字符串，如何取下需要的信息下一條：python - 編碼問題求助

相關(guān)文章：

1. python - 編碼問題求助2. mysql - jdbc的問題3. python - 我在使用pip install -r requirements.txt下載時，為什么部分能下載，部分不能下載4. mysql - 分庫分表、分區(qū)、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處5. mysql - 如何減少使用或者不用LEFT JOIN查詢？6. Python爬蟲如何爬取span和span中間的內(nèi)容并分別存入字典里？7. 視頻文件不能播放，怎么辦？8. 圖片鏈接的地址怎么獲得的9. mysql 5個left關(guān)鍵然后再用搜索條件幾千條數(shù)據(jù)就會卡，如何解決呢10. python - oslo_config

排行榜

					
					python - Win7調(diào)用flup報(bào)錯’module’ object has no attribute ’fromfd’
javascript - npm安裝警告
javascript - 關(guān)于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
python - 小白django提交數(shù)據(jù)后，沒有存儲到數(shù)據(jù)庫（查閱資料并沒有發(fā)現(xiàn)問題）
python - 我在使用pip install -r requirements.txt下載時，為什么部分能下載，部分不能下載
docker安裝后出現(xiàn)Cannot connect to the Docker daemon.
Docker for Mac 創(chuàng)建的dnsmasq容器連不上/不工作的問題
docker內(nèi)創(chuàng)建jenkins訪問另一個容器下的服務(wù)器問題
9. 視頻文件不能播放，怎么辦？
angular.js - 在ng-option 里使用過濾器無效
				

熱門標(biāo)簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問