爬蟲流程
- 確認想要蒐集的資料
- 尋找相關的網站來分析要爬取網頁的架構
- 選擇合適的爬蟲工具來進行作業
- 把擷取的資料儲存起來
爬蟲工具比較
| BeautifulSoup | Selenium | Scrapy框架
------------- | -------------
功能 | 搜尋與取得HTML元素 | 擷取網頁元素、模擬網頁操作流程 | 完整的網頁爬蟲功能
特色 | 容易學習 | 自動化操作網頁元素、容易與JavaScrip的事件合作 | 執行效率快、內建多種檔案輸出模式、Scrapy Shell偵錯工具
使用時機 | 靜態網頁 | 動態網頁 | 大型爬蟲專案
參考資料
爬蟲基本概念
爬蟲工具比較