iT邦幫忙

2024 iThome 鐵人賽

DAY 17
0
Modern Web

麻瓜的程式翻譯書《Who the hell are you XXX》系列 第 17

DAY17 Web crawler 在竊取,只因為這件事

  • 分享至 

  • xImage
  •  

Who the hell are you Web crawler

image alt

前言

假設你在搜尋一項產品時,是否覺得每次都要一個個點開頁面去查找,比如價錢、銷量、型號等等數據?如果能快速擷取所需就好了。於是網路爬蟲(Web Crawler)誕生了。它是一項搜尋引擎技術,依據你所設定的搜尋項目,自動化地瀏覽和索引網站內容,讓使用者能夠迅速找到所需資料。但請注意,它只是負責找尋,並不負責整理。總體來說,它還是大大簡化了搜尋流程。

fun fact

你知道如果惡意使用爬蟲,導致對方網站負擔過重而癱瘓,這樣即會演變成 DDoS(Distributed Denial of Service,分散式阻斷服務攻擊)事件嗎?

生活化解釋


今天小銘與小華想要知道 IKEA 所有沙發的商品資訊,像是蒐集價錢、尺寸,並下載圖片等等。由於他們兩個非常懶惰,連瀏覽網站的沙發分類都懶得看,於是他們決定使用爬蟲機器人,給機器人設定參數與規則後,爬蟲便會開始自動前往該網站,蒐集各種資料。不僅是蒐集資料,爬蟲甚至可以幫你自動送出資料進行交易等操作。

歷史

image alt

最早可以追溯到網際網路的起源,1990 年時就已經有爬蟲的概念了。當網際網路還處於初始階段時,第一支爬蟲叫做 World Wide Web Wanderer,由 Matthew Gray 於 1993 年創建。這個爬蟲最初的目的是測量網路的成長,記錄不同網站的數量。後來,它進一步演變為收集網站資料,成為了早期搜尋引擎的基礎之一。

後記

我在搜尋 Web crawler 資料的過程中,發現了另一個技術叫做 Web Scraping。以下是目前已知的差異:

Web Crawler:純粹找尋資料,依靠機器人自動運行。
Web Scraping:可針對性下載檔案,通常需要一些手動操作。

Yes

參考

Matthew Gray (Wanderer) – Computer Timeline
World Wide Web Wanderer - Wikipedia
網路爬蟲是什麼 | 網路蜘蛛如何運作? | Cloudflare
關於網路爬蟲 - Python 教學 | STEAM 教育學習網
ddos 攻擊定義,防護策略與三手法 | Cloudflare
(38) Python 爬蟲高級技巧:突破網路防護、模仿瀏覽器、使用 Cookie 與每日自動化排程全攻略 | 成為爬蟲王 (‧o‧) (‧o‧) (‧o‧) - YouTube
文組也看得懂的 - 網路爬蟲 - YouTube
爬蟲歷史
Web crawler vs Web Scraping
前十大爬蟲


上一篇
DAY16 NPM 好大包
下一篇
DAY18 聊天就靠 WebSocket
系列文
麻瓜的程式翻譯書《Who the hell are you XXX》30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
橘子
iT邦新手 4 級 ‧ 2024-10-01 14:35:09

為什麼小銘和小華會一起看沙發>///<

華生 iT邦新手 5 級 ‧ 2024-10-01 18:14:55 檢舉

我要留言

立即登入留言