iT邦幫忙

2023 iThome 鐵人賽

DAY 2
0
AI & Data

30天網路爬蟲學習系列 第 2

DAY2-認識網路爬蟲

  • 分享至 

  • xImage
  •  

何謂網路爬蟲

網路爬蟲(Web Scraping)也稱之為網路蜘蛛(Web Spider)或網路資料擷取(Web Data Extraction),是一種資料擷取技術,透過與web資源進行通訊,剖析文件所需資料,將資料整理成資訊,轉換成所需的資料格式。

我們可以手動進行複製貼上方式來收集和擷取資訊,但網路爬蟲可以自動幫助我們收集和擷取資訊。

爬蟲造訪網站的過程會消耗目標系統資源。因此在訪問大量頁面時,還需要考慮到規劃、負載,以及「禮貌」。 不願意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt檔案的方法避免訪問。

如何進行網路爬蟲

網路爬蟲是透過程式自動從網站獲取資料的過程,而在瀏覽器輸入URL網址來瀏覽網頁,這項看起來十分簡單的操作,就是建立網路爬蟲的第一步。

其基本步驟如下:

  1. 在瀏覽器輸入URL網址就是向Web 伺服器送出HTTP請求(HTTP Request),這是GET請求(即取得資源的請求)。
  2. Web伺服器依據瀏覽器送出的HTTP請求來回應內容至瀏覽器(HTTP Response),通常就是HTML網頁。
  3. 瀏覽器接收到伺服器回應的HTML網頁後,就會將網頁內容剖析建立成樹狀結構,每一個HTML標籤是一個節點,這就是DOM(Document Object Model)。
  4. 瀏覽器依據DOM產生內容,就是我們在瀏覽器檢視的網頁內容。

網路爬蟲可以用在什麼地方

  1. 使用網路爬蟲取得飯店房間價格、機票價格等各種產品和服務價格,輕鬆建立比價資訊。
  2. 使用網路爬蟲取得房地產網站相關資訊來追蹤房地產的趨勢。
  3. 線上商店可以使用網路爬蟲取得競爭者的商品價格,取得資訊來及時調整商品價格。

今天的分享就先到這邊啦!謝謝大家~我們明天見! /images/emoticon/emoticon41.gif

網站參考資料:

https://zh.wikipedia.org/zh-tw/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2
https://medium.com/@bindaguo/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2%E6%B7%BA%E8%AB%87-afcae0694f13
https://www.webscrapingpro.tw/what-is-web-scraping/

書籍參考資料:

文科生也可以輕鬆學習網路爬蟲


上一篇
DAY1-前言
下一篇
DAY3-HTTP協定
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言