文章詳情頁

python - Scrapy存在內存泄漏的問題。

瀏覽：87日期：2022-06-27 09:37:33

問題描述

再編寫爬蟲的時候，總是跑了一段時間（不會超過12個小時）就會被OOM掉。很是無奈！！！根據官方的文檔，使用這個prefs()但是實在找不出問題的所在。

Live ReferencesHtmlResponse 42 oldest: 753s agoMySuteSpider1 oldest: 2964s agoRequest 32412 oldest: 2920s agoSelector 42 oldest: 751s agoTripItem 37 oldest: 751s ago

爬蟲的處理是獲取所有頁面的a標簽的鏈接：

#獲取域名的后綴def get_domain_suffix(domain): if ’com’ in tldextract.extract(domain).suffix:return True return False#拼接域名。只存主域名def save_domain(domain): domain_name = tldextract.extract(domain).domain suffix_name = tldextract.extract(domain).suffix return domain_name + ’.’ + suffix_name#獲取域名ipdef get_domain_ip(domain): try:ip = socket.gethostbyname(domain)return ip except:return ’114.114.114.114’# 獲取域名所在的國家def get_domain_ct_iso(ip): GEO = geoip2.database.Reader(’/var/test/geodb/GeoLite2-City.mmdb’) r = GEO.city(ip) return r.country.iso_codeclass MyDomainSpider(scrapy.Spider): name = ’my_domain’ start_urls = [’http://xxx.com ] def parse_items(self, response):item = TripItem()for url in response.xpath(’//a/@href’).extract(): if url.startswith(’http’): domain = urlparse.urlparse(url).netloc if get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == ’US’:item[’domain’] = save_domain(domain)item[’ip’] = get_domain_ip(domain)item[’datetime’] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')yield item def parse(self, response):for url in response.xpath(’//a/@href’).extract(): if url.startswith(’http’):domain = urlparse.urlparse(url).netlocif get_domain_tw(domain) or get_domain_ct_iso(get_domain_ip(domain)) == ’US’: yield scrapy.Request(url, callback=self.parse_items)

請指教一下謝謝

問題解答

回答1：

yield item 是不是得落地，存文件或者db，不然一直存內存了

Python 編程

上一條：python - 在使用Pycharm時經常看到如下的樣式，小括號里紅色的部分是什么意思呢？下一條：javascript - 請教如何獲取百度貼吧新增的兩個加密參數

相關文章：

1. mysql - 如何減少使用或者不用LEFT JOIN查詢？2. html5 - H5 audio 微信端在IOS上不能播放音樂3. Python爬蟲如何爬取span和span中間的內容并分別存入字典里？4. python - 編碼問題求助5. 視頻文件不能播放，怎么辦？6. mysql - 分庫分表、分區、讀寫分離這些都是用在什么場景下，會帶來哪些效率或者其他方面的好處7. mysql - jdbc的問題8. python - 我在使用pip install -r requirements.txt下載時，為什么部分能下載，部分不能下載9. Python如何播放還存在StringIO中的MP3?10. mysql - 千萬級數據的表，添加unique約束，insert會不會很慢？

排行榜

					
					javascript - 正則表達式 w只匹配出一個字母，若要匹配出一個單詞，怎么寫？
javascript - es6將類數組轉化成數組的問題
javascript - 關于css絕對定位在ios瀏覽器被橡皮筋遮擋的問題
python - 小白django提交數據后，沒有存儲到數據庫（查閱資料并沒有發現問題）
從事游戲服務端開發（Java），需要具備哪些技術？？？
html5 - 為什么使使用vue cli 腳手架，post-css 沒有自動對css3屬性自動添加瀏覽器前綴呢？
html5 - H5 audio 微信端 在IOS上不能播放音樂
mysql - 千萬級數據的表，添加unique約束，insert會不會很慢？
python - 我在使用pip install -r requirements.txt下載時，為什么部分能下載，部分不能下載
docker安裝后出現Cannot connect to the Docker daemon.
docker內創建jenkins訪問另一個容器下的服務器問題
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - Scrapy存在內存泄漏的問題。