DAY2-認識網路爬蟲

2023 iThome 鐵人賽

DAY 2

AI & Data

30天網路爬蟲學習系列第 2 篇

15th鐵人賽

yichenpan

2023-09-17 21:11:16

907 瀏覽

分享至

何謂網路爬蟲

網路爬蟲(Web Scraping)也稱之為網路蜘蛛(Web Spider)或網路資料擷取(Web Data Extraction)，是一種資料擷取技術，透過與web資源進行通訊，剖析文件所需資料，將資料整理成資訊，轉換成所需的資料格式。

我們可以手動進行複製貼上方式來收集和擷取資訊，但網路爬蟲可以自動幫助我們收集和擷取資訊。

爬蟲造訪網站的過程會消耗目標系統資源。因此在訪問大量頁面時，還需要考慮到規劃、負載，以及「禮貌」。不願意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt檔案的方法避免訪問。

如何進行網路爬蟲

網路爬蟲是透過程式自動從網站獲取資料的過程，而在瀏覽器輸入URL網址來瀏覽網頁，這項看起來十分簡單的操作，就是建立網路爬蟲的第一步。

其基本步驟如下：

在瀏覽器輸入URL網址就是向Web 伺服器送出HTTP請求(HTTP Request)，這是GET請求(即取得資源的請求)。
Web伺服器依據瀏覽器送出的HTTP請求來回應內容至瀏覽器(HTTP Response)，通常就是HTML網頁。
瀏覽器接收到伺服器回應的HTML網頁後，就會將網頁內容剖析建立成樹狀結構，每一個HTML標籤是一個節點，這就是DOM(Document Object Model)。
瀏覽器依據DOM產生內容，就是我們在瀏覽器檢視的網頁內容。

網路爬蟲可以用在什麼地方

使用網路爬蟲取得飯店房間價格、機票價格等各種產品和服務價格，輕鬆建立比價資訊。
使用網路爬蟲取得房地產網站相關資訊來追蹤房地產的趨勢。
線上商店可以使用網路爬蟲取得競爭者的商品價格，取得資訊來及時調整商品價格。

今天的分享就先到這邊啦!謝謝大家~我們明天見!

網站參考資料:

https://zh.wikipedia.org/zh-tw/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2
https://medium.com/@bindaguo/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2%E6%B7%BA%E8%AB%87-afcae0694f13
https://www.webscrapingpro.tw/what-is-web-scraping/

書籍參考資料:

文科生也可以輕鬆學習網路爬蟲