av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽:120日期:2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時,利用itemloader這個類,使用selector取出的值為空時,進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過filyer()之后變成'無值'

問題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個我不太好說我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁面放到隊(duì)列里,按類別分類,例如分頁的列表頁一個隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁一個隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù),爬取的過程中對一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對大部分爬蟲框架也大概都是這種思路吧,無非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 久久精品免费看 | 日韩欧美字幕 | 老司机67194精品线观看 | 国产欧美精品区一区二区三区 | 亚洲福利在线观看 | 在线一区 | 日本h片在线观看 | 国产主播第一页 | 国产精品日本一区二区不卡视频 | 国产精品中文字幕在线播放 | 天天干干 | 亚洲免费片| 国产a区| 日韩精品视频一区二区三区 | 亚洲综合一区二区三区 | 精品综合在线 | 宅女噜噜66国产精品观看免费 | 亚洲福利在线观看 | 免费亚洲成人 | 免费人成在线观看网站 | 91久久夜色精品国产网站 | 国产一区亚洲 | 欧亚av在线| 亚洲成人精品一区二区 | 日韩精品一区二区三区中文字幕 | 日韩一区二区三区在线观看 | 久久蜜桃资源一区二区老牛 | 亚洲成人一级 | 欧美一区二区三区久久精品 | 午夜影院 | 欧美精品免费观看二区 | 中文字幕在线看人 | 男女一区二区三区 | 欧美日韩一卡 | 免费av手机在线观看 | 亚洲综合电影 | 久久小视频 | 欧美精品乱码久久久久久按摩 | 免费毛片网站在线观看 | 免费看av大片 | 亚洲视频中文 |