網路爬蟲,或稱網路資料擷取,是一個從Web資源擷取所需資料的過程。它可以讓我們從網站取出非表格或結構不佳的資料,轉換成可用且結構化的資料。
注意!!!若取得資料已經是機器可讀取的,就不屬於網路爬蟲的範疇,如下:
- 從網路下載資料檔(Excel、CSV、JSON、XML檔)
- 應用程式介面API
網路爬蟲除了可以從網路擷取資料,還可以收集資料和線上追蹤資料的變更。常見應用如下:
- 爬取相關網站取得指定產品和服務的價格,找出最划算的價格
- 從股票資訊網站爬取相關資訊來追蹤股價趨勢
- 從社群網站爬取使用者評價、流行趨勢和熱門話題
網路爬蟲基本步驟
-
識別出目標網址:識別出目標Web資源的網址
-
送出HTTP請求取得HTML網頁:使用Python函式庫送出請求取回HTTP回應的網頁
-
分析HTML網頁:使用視覺化工具在網頁定位所需資料,並且分析分析如何搜尋和找出標籤來擷取資料
-
剖析HTML網頁:使用Python函式庫解析回應文件的網頁,可以建立成樹狀結構的標籤物集合
-
從解析網頁取出所需資料:透過搜尋和走訪方式取出所需資料,整理成指定格式後儲存成CSV或JSON檔案