文章詳情頁

簡述python Scrapy框架

瀏覽：12日期：2022-07-13 18:27:22

一、Scrapy框架簡介

Scrapy是用純Python實現一個為了爬取網站數據，提取結構性數據而編寫的應用框架，用途非常廣泛。利用框架，用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常的方便。它使用Twisted這個異步網絡庫來處理網絡通訊，架構清晰，并且包含了各種中間件接口，可以靈活的完成各種需求。Scrapy是Python世界里面最強大的爬蟲框架，它比BeautifulSoup更加完善，BeautifulSoup可以說是輪子，而Scrapy則是車子，不需要關注太多的細節。

二、Scrapy原理

1.ScrapyEngine(引擎):負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，信號數據傳遞等。

2.Scheduler(調度器):它負責接受引擎發送過來的request請求，并按照定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。

3.Downloader(下載器):負責下載ScrapyEngine發送的所有requests請求，并將其獲取到的responses交還給ScrapyEngine，由引擎交給Spider來處理。

4.Spider(爬蟲):它負責處理所有Responses，從中分析提取數據，獲取ltem字段需要的數據，并將需要跟進的URL提交給引擎，再次進入Scheduler。

5.ItemPipeline(管道):它負責處理Spider中獲取到的ltem，并進行進行后期處理，詳細分析，過濾，存儲等的地方。

6.DownloaderMiddlewares(下載中間件):它是一個可以自定義擴展下載功能的組件。

7.SpiderMiddlewares(Spider中間件):它是一個可以自定擴展和操作引擎和Spider中間通信的功能組件比如進入Spider的Responses，和從Spider出去的Requests。

三、創建Scrapy項目

新建項目命令：

scrapy startproject xxx

在開始爬取之前,必須創建一個新的Scrapy項目。進入自定義的項目目錄中，運行下列命令:

scrapy startproject xxx

其中，xxx為項目名稱,可以看到將會創建一個xxx文件夾，目錄結構大致如下:

簡述python Scrapy框架

四、創建爬蟲

創建爬蟲的命令：

scrapy genspider 爬蟲名字網站域名

應當注意的是爬蟲名字不要和項目名字一-樣，網站域名是允許爬蟲采集的域名如，baidu. com，zhihu. com。創建后python文件如下:

簡述python Scrapy框架

五、總結

Scrapy框架相當于一輛造好的車子，只要我們會開，我們就可以利用這輛車子去到任意想去的地方。通常我們使用的request的方法就相當于在出發前再去造一輛車子，這是相當麻煩的。學好Scrapy，對于網上80%的網站我們都可以進行爬取。

以上就是簡述python Scrapy框架的詳細內容，更多關于python Scrapy框架的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：PyCharm vs VSCode，作為python開發者，你更傾向哪種IDE呢？下一條：python使用多線程查詢數據庫的實現示例

相關文章：

1. python爬蟲實戰之制作屬于自己的一個IP代理模塊2. HTML 絕對路徑與相對路徑概念詳細3. python 利用toapi庫自動生成api4. IntelliJ IDEA設置默認瀏覽器的方法5. python實現PolynomialFeatures多項式的方法6. python實現在內存中讀寫str和二進制數據代碼7. Android Studio設置顏色拾色器工具Color Picker教程8. Spring如何使用xml創建bean對象9. Java程序的編碼規范（6）10. PHP設計模式（五）適配器模式Adapter實例詳解【結構型】

排行榜

					
					python爬蟲實戰之制作屬于自己的一個IP代理模塊
python實現在內存中讀寫str和二進制數據代碼
HTML 絕對路徑與相對路徑概念詳細
python 利用toapi庫自動生成api
Java程序的編碼規范（6）
python實現PolynomialFeatures多項式的方法
IntelliJ IDEA設置默認瀏覽器的方法
Spring如何使用xml創建bean對象
Android Studio設置顏色拾色器工具Color Picker教程
Android使用WebView實現離線閱讀功能
Spring教程之refresh()執行邏輯淺析