[Day24] 爬蟲應用與工具比較總複習

2022 iThome 鐵人賽

DAY 24

自我挑戰組

用Python學習網路爬蟲30天系列第 24 篇

14th鐵人賽

rouanchen

2022-10-08 16:14:47

1753 瀏覽

分享至

爬蟲流程

確認想要蒐集的資料
尋找相關的網站來分析要爬取網頁的架構
選擇合適的爬蟲工具來進行作業
把擷取的資料儲存起來

爬蟲工具比較

| BeautifulSoup | Selenium | Scrapy框架
------------- | -------------
功能 | 搜尋與取得HTML元素 | 擷取網頁元素、模擬網頁操作流程 | 完整的網頁爬蟲功能
特色 | 容易學習 | 自動化操作網頁元素、容易與JavaScrip的事件合作 | 執行效率快、內建多種檔案輸出模式、Scrapy Shell偵錯工具
使用時機 | 靜態網頁 | 動態網頁 | 大型爬蟲專案

參考資料
爬蟲基本概念
 爬蟲工具比較