【Day 22】Scrapy 簡介

第 11 屆 iThome 鐵人賽

DAY 23

AI & Data

爬蟲在手、資料我有 - 30 天 Scrapy 爬蟲實戰系列第 23 篇

11th鐵人賽 python crawler 爬蟲 scrapy

Rex Chien

2019-10-07 14:58:34

3500 瀏覽

分享至

寫了好幾天的爬蟲，不知道大家有沒有感覺同一支程式中要關注的事情太多。目前我們爬蟲的流程大概是這樣：

發送請求，取得網頁 HTML 原始碼
- 可能需要額外的重試或錯誤處理機制，以免請求失敗
- 需要控制請求間隔，避免同時發送大量請求而被封鎖
- 也許還有非同步或多執行緒的設計來提高爬取速度
載入 HTML 剖析器（例如 BeautifulSoup）
在網頁中定位並取得目標資料
找出其他目標連結網址
- 可能需要額外處理相對路徑
儲存資料
- 可能需要對資料做前處理（例如正規化、trimming）

每支爬蟲程式都包含了上述的邏輯，但不同目標網站的爬蟲，差異都只有在 3 和 4 兩個步驟，其他部分基本上都是相同的。隨著爬蟲數量增加，相同的程式片段會越來越多，雖然可以用封裝的方式將相同邏輯都提取到父類別中，但父類別可能也會越來越龐大。如果可以用 AOP 的方式，把不同功能的程式碼都隔離開，未來維護擴充都會方便許多。

藉由類似 Scrapy 的爬蟲框架，可以節省不少開發成本，接下來幾天就會跟大家一起了解 Scrapy 的功能。

Scrapy 架構

Scrapy 框架的架構如下圖：

圖片來源：Architecture overview — Scrapy 1.7.3 documentation

資料流

Scrapy 中的資料流向都是由圖片正中央的 Scrapy Engine 來控制，一次完整的流程會是：

Engine 收到 Spider 發來的首次請求
Engine 把剛剛收到的請求加進 Scheduler 的排程中，同時要求其提供接下來要爬取的請求
Scheduler 回傳下次要爬取的請求給 Engine
Engine 將請求發送給 Downloader，發送的過程可能會經過數個 Downloader Middlewares
網頁原始碼下載完成後，由 Downloader 產生一個回應並送回 Engine，過程也可能會經過數個 Downloader Middlewares
Engine 收到 Download 傳來的回應後，傳給 Spider 做處理，過程可能會經過數個 Spider Middlewares
Spider 處理回應後，將爬取到的項目和新的請求回傳給 Engine，過程也可能會經過數個 Spider Middlewares
Engine 將項目傳給 Item Pipelines，同時告知 Scheduler 已處理完這個請求並要求其提供下一個請求
重複步驟 1~8，直到 Scheduler 中沒有新的請求