DAY17 Web crawler 在竊取，只因為這件事

16th鐵人賽

華生

團隊好想工作室 v8.0

2024-10-01 13:38:42

684 瀏覽

分享至

Who the hell are you Web crawler

image alt

前言

假設你在搜尋一項產品時，是否覺得每次都要一個個點開頁面去查找，比如價錢、銷量、型號等等數據？如果能快速擷取所需就好了。於是網路爬蟲（Web Crawler）誕生了。它是一項搜尋引擎技術，依據你所設定的搜尋項目，自動化地瀏覽和索引網站內容，讓使用者能夠迅速找到所需資料。但請注意，它只是負責找尋，並不負責整理。總體來說，它還是大大簡化了搜尋流程。

fun fact

你知道如果惡意使用爬蟲，導致對方網站負擔過重而癱瘓，這樣即會演變成 DDoS（Distributed Denial of Service，分散式阻斷服務攻擊）事件嗎？

生活化解釋

今天小銘與小華想要知道 IKEA 所有沙發的商品資訊，像是蒐集價錢、尺寸，並下載圖片等等。由於他們兩個非常懶惰，連瀏覽網站的沙發分類都懶得看，於是他們決定使用爬蟲機器人，給機器人設定參數與規則後，爬蟲便會開始自動前往該網站，蒐集各種資料。不僅是蒐集資料，爬蟲甚至可以幫你自動送出資料進行交易等操作。

歷史

最早可以追溯到網際網路的起源，1990 年時就已經有爬蟲的概念了。當網際網路還處於初始階段時，第一支爬蟲叫做 World Wide Web Wanderer，由 Matthew Gray 於 1993 年創建。這個爬蟲最初的目的是測量網路的成長，記錄不同網站的數量。後來，它進一步演變為收集網站資料，成為了早期搜尋引擎的基礎之一。