[Day3] 什麼是網路爬蟲? - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 3

0

自我挑戰組

用Python學習網路爬蟲30天系列第 3 篇

[Day3] 什麼是網路爬蟲?

14th鐵人賽

2022-09-17 18:59:32

875 瀏覽

分享至

網路爬蟲，或稱網路資料擷取，是一個從Web資源擷取所需資料的過程。它可以讓我們從網站取出非表格或結構不佳的資料，轉換成可用且結構化的資料。

注意!!!若取得資料已經是機器可讀取的，就不屬於網路爬蟲的範疇，如下:

從網路下載資料檔(Excel、CSV、JSON、XML檔)
應用程式介面API

網路爬蟲除了可以從網路擷取資料，還可以收集資料和線上追蹤資料的變更。常見應用如下:

爬取相關網站取得指定產品和服務的價格，找出最划算的價格
從股票資訊網站爬取相關資訊來追蹤股價趨勢
從社群網站爬取使用者評價、流行趨勢和熱門話題

網路爬蟲基本步驟

識別出目標網址:識別出目標Web資源的網址
送出HTTP請求取得HTML網頁:使用Python函式庫送出請求取回HTTP回應的網頁
分析HTML網頁:使用視覺化工具在網頁定位所需資料，並且分析分析如何搜尋和找出標籤來擷取資料
剖析HTML網頁:使用Python函式庫解析回應文件的網頁，可以建立成樹狀結構的標籤物集合
從解析網頁取出所需資料:透過搜尋和走訪方式取出所需資料，整理成指定格式後儲存成CSV或JSON檔案

[Day2] 軟體安裝

[Day4] 從網路取得資料1_HTTP請求

系列文

用Python學習網路爬蟲30天共 30 篇

目錄

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙