av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:128日期:2022-06-29 17:26:48

問題描述

現(xiàn)在采用的是在windows 環(huán)境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執(zhí)行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協(xié)程/線程池實現(xiàn), 因為你在頻繁創(chuàng)建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協(xié)程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 粉嫩av| 久在线精品视频 | 天天躁日日躁狠狠躁2018小说 | 国产亚洲一级 | 免费激情网站 | 国产精品成人久久久久 | 日韩中文一区二区三区 | 人人九九| 国产成人精品一区二区三区在线 | 国产一区二区在线免费 | 毛片视频免费观看 | 欧美成人a∨高清免费观看 老司机午夜性大片 | 欧美日韩高清 | 国产精品久久久久久久久久免费看 | 免费国产成人av | 国产精品国产精品国产专区不卡 | 男女羞羞视频大全 | 国产精品美女久久久久久不卡 | 成人精品鲁一区一区二区 | 91精品久久久久久久久中文字幕 | 日韩高清中文字幕 | 久久不卡日韩美女 | 日韩中字幕 | 一区二区日韩 | 婷婷久久网 | 特级特黄特色的免费大片 | 国产99热 | 夜夜夜夜夜夜曰天天天 | 欧美区在线 | 日韩中文一区二区三区 | 成人欧美一区二区 | 网址黄 | 国产精品久久久久久 | 免费看色 | 免费黄色的视频 | 国产精品亚洲综合 | 欧美性受xxxx | 水蜜桃亚洲一二三四在线 | 精品视频在线一区 | 久久一区视频 | 成人综合在线视频 |