iT邦幫忙

2021 iThome 鐵人賽

DAY 10
0
AI & Data

網路爬蟲,萬物皆爬 - 30 天搞懂並實戰網路爬蟲及應對反爬蟲技術系列 第 10

【Day 10】- 你的爬蟲是哪一類的? (網路爬蟲的類型)

前情提要

前一篇文章帶大家看了 BeautifulSoup 庫的使用,用他來做資料清洗,使我們真正想要的資料能夠從一堆資料內被清理出來。

開始之前

本篇將介紹網路爬蟲的類型,實際在撰寫時可以知道現在正在撰寫哪一類的爬蟲,與他們溝通時也會比較方便。也預防別人說爬蟲類型,卻不知道那是什麼。

網路爬蟲的類型

網路爬蟲種類分為以下四類

  • 通用網路爬蟲
  • 聚焦網路爬蟲
  • 增量式網路爬蟲
  • 深層網路爬蟲

通用網路爬蟲 General Purpose Web Crawler

通用網路爬蟲又稱全網爬蟲。從命名上來看,可以大致了解此爬蟲爬取的資料來自於全網際網路當中。

此爬蟲爬取的資料量十分巨大,因此對爬蟲的效能要求也是十分巨大的。此類爬蟲常見的有 Google、Bing 等瀏覽器。

聚焦網路爬蟲 Focused Crawler

聚焦網路爬蟲又稱主題網路爬蟲,此爬蟲只會選擇性的爬取需求的主題。與通用網路爬蟲相比,省下爬取無關的資料,只會爬取需求的資料。

增量式網路爬蟲 Incremental Web Crawler

增量式網路爬蟲的增量式指的是增量式更新。增量式更新代表更新時只更新改變的地方。

這類爬蟲能保證只爬取到新資料,能盡量減小空間與時間的消耗,不過實作上較為複雜,實際開發中不太普及。

深層網路爬蟲 Deep Web Crawler

深層網路爬蟲顧名思義就是爬取深層網頁的爬蟲,一般能透過靜態網址達到的網頁稱為表層網頁,需要透過 form 或其他形式達到的網頁稱為深層網頁。而深層網頁能獲取的資料量理論上較大,因此會盡量爬取此頁面。

實際上,聚焦網路爬蟲、增量式網路爬蟲及深層網路爬蟲可被歸納為一種,即為大家常稱的網路爬蟲。通用網路爬蟲則為搜尋引擎。

結語

今天跟大家介紹了網路爬蟲的類型,其實大部分的網路爬蟲都是聚焦網路爬蟲,而搜尋引擎為通用網路爬蟲。

明日內容

明天三天將會進行網路爬蟲的實戰,會帶各位爬取 PTT 歐,也會帶各位使用爬蟲繞過已滿 18 歲的確認。

補充資料

網路爬蟲 智庫 : https://wiki.mbalib.com/zh-tw/网络爬虫

不慌,带你透彻了解爬虫类型 : https://cloud.tencent.com/developer/news/333998


上一篇
【Day 09】- 大家都愛的 BeautifulSoup
下一篇
【Day 11】- 還在 PTT 點擊已滿 18 歲? 帶上 cookies 吧!(實戰 PTT 爬蟲 1/3)
系列文
網路爬蟲,萬物皆爬 - 30 天搞懂並實戰網路爬蟲及應對反爬蟲技術30

尚未有邦友留言

立即登入留言