Scrapy框架的工作原理是什么?

更新時(shí)間:2020-09-30 來源:黑馬程序員瀏覽量:

Scrapy框架的工作原理是什么?

Scrapy架構(gòu)

學(xué)習(xí)Scrapy框架，從理解它的架構(gòu)開始。圖1所示是Scrapy的架構(gòu)圖。

從圖1可知，Scrapy框架主要包含以下組件：

(1)Scrapy Engine(引擎)：負(fù)責(zé)Spider、Item Pipeline、Downloader、Scheduler之間的通訊，包括信號(hào)和數(shù)據(jù)的傳遞等。

(2)Scheduler(調(diào)度器)：負(fù)責(zé)接受引擎發(fā)送過來的Request請(qǐng)求，并按照一定的方式進(jìn)行整理排列和入隊(duì)，當(dāng)引擎需要時(shí)，交還給引擎。

(3)Downloader(下載器)：負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests(請(qǐng)求)，并將其獲取到的Responses(響應(yīng))交還給Scrapy Engine(引擎)，由引擎交給Spider來處理。

(4)Spiders(爬蟲)：負(fù)責(zé)處理所有Responses，從中分析提取數(shù)據(jù)，獲取Item字段需要的數(shù)據(jù)，并將需要跟進(jìn)的URL提交給引擎，再次進(jìn)入Scheduler(調(diào)度器)。

(5)Item Pipeline(管道)：負(fù)責(zé)處理Spiders中獲取到的Item數(shù)據(jù)，并進(jìn)行后期處理(詳細(xì)分析、過濾、存儲(chǔ)等)。

(6)Downloader Middlewares(下載中間件)：是一個(gè)可以自定義擴(kuò)展下載功能的組件。

(7)Spider Middlewares(Spider中間件)：是一個(gè)可以自定義擴(kuò)展Scrapy Engine和Spiders中間通信的功能組件(比如進(jìn)入Spiders的Responses和從Spiders出去的Requests)。

Scrapy的這些組件通力合作，共同完成整個(gè)爬取任務(wù)。架構(gòu)圖中的箭頭是數(shù)據(jù)的流動(dòng)方向，首先從初始URL開始，Scheduler會(huì)將其交給Downloader進(jìn)行下載，下載之后會(huì)交給Spider進(jìn)行分析，Spider分析出來的結(jié)果有兩種：一種是需要進(jìn)一步抓取的鏈接，例如之前分析的“下一頁”的鏈接，這些東西會(huì)被傳回Scheduler;另一種是需要保存的數(shù)據(jù)，它們則被送到Item Pipeline那里，那是對(duì)數(shù)據(jù)進(jìn)行后期處理(詳細(xì)分析、過濾、存儲(chǔ)等)的地方。另外，在數(shù)據(jù)流動(dòng)的通道里還可以安裝各種中間件，進(jìn)行必要的處理。

Scrapy框架的運(yùn)作流程

Scrapy的運(yùn)作流程由引擎控制，其過程如下所示：

(1)引擎向Spider請(qǐng)求第一個(gè)要爬取的URL(s)。

(2)引擎從Spider中獲取到第一個(gè)要爬取的URL，封裝成Request并交給調(diào)度器。

(3)引擎向調(diào)度器請(qǐng)求下一個(gè)要爬取的Request。

(4)調(diào)度器返回下一個(gè)要爬取的Request給引擎，引擎將Request通過下載中間件轉(zhuǎn)發(fā)給下載器。

(5)一旦頁面下載完畢，下載器生成一個(gè)該頁面的Response，并將其通過下載中間件發(fā)送給引擎。

(6)引擎從下載器中接收到Response并通過Spider中間件發(fā)送給Spider處理。

(7)Spider處理Response并返回爬取到的Item及新的Request給引擎。

(8)引擎將爬取到的Item給Item Pipeline，將Request給調(diào)度器。

(9)從(2)開始重復(fù)，直到調(diào)度器中沒有更多的Request。

多學(xué)一招：Scrapy擬人小劇場(chǎng)