iT邦幫忙

2022 iThome 鐵人賽

DAY 13
0
自我挑戰組

養爬蟲的人學爬蟲系列 第 13

【Day 13】不同的爬蟲種類

  • 分享至 

  • xImage
  •  

閒聊
在昨天學習了BeautifulSoup套件後,今天來看看爬蟲究竟有分為哪些種類,以及它們之間的差別。

種類

  • 通用網路爬蟲
  • 聚焦網路爬蟲
  • 增量式網路爬蟲
  • 深層網路爬蟲

通用網路爬蟲 General Purpose Web Crawler
又稱為「全網爬蟲」,爬蟲的資料主要來自於全網際網路。
這類爬蟲主要是蒐集每個網站的特色資訊,所以範圍、數據量龐大。
例如:Google、Yahoo、百度搜尋引擎。

聚焦網路爬蟲 Focused Crawler
又稱為「主題網路爬蟲」,主要依據需求選擇性爬取相關頁面,不會廣泛爬取。

增量式網路爬蟲 Incremental Web Crawler
主要是爬取新增網頁或是已更新網頁,這類爬蟲可以減少數據下載量,可以節省時間、空間。
但也需要比較複雜的演算法,設計執行上比較困難。
目前比較少實務應用。

深層網路爬蟲 Deep Web Crawler
顧名思義就是爬取深層的內容,一般可以爬取的網頁是表層的內容。
這類主要爬取內容無法從靜態URL,只有用戶提交表單時才能獲得的網路訊息(例如需要輸入帳號密碼)。
而且深層的內容理論上能獲取的資料量較大,因此會儘量爬取此頁面。

實際上:

  • 通用網路爬蟲可以稱為搜尋引擎
  • 聚焦網路爬蟲、增量式網路爬蟲和深層網路爬蟲可以被歸類為一種,就是大家常說的網路爬蟲。

搜尋引擎工作原理
也可以稱為通用網路爬蟲工作原理。
https://ithelp.ithome.com.tw/upload/images/20220926/20145359iCwHheZeb3.jpg

網路爬蟲工作原理
https://ithelp.ithome.com.tw/upload/images/20220926/20145359e0JvitS5Ae.jpg

結語
在今天之前,我也只知道網路爬蟲而已,原來還有分為這幾個種類!
知道這些種類後,以後需要獲取不同資料的時候,就知道可以使用哪種爬蟲種類了。

明天!
【Day 14】爬進PTT的網頁吧!(實戰PTT 1/3)

參考資料
Python網路爬蟲:誰是真正的鄉民之王?https://deepmind.com.tw/sse%E7%9F%A5%E8%AD%98%E8%A3%9C%E7%B5%A6%E7%AF%84%E4%BE%8B/


上一篇
【Day 12】常出現的BeautifulSoup
下一篇
【Day 14】爬進PTT的網頁吧!(實戰PTT 1/3)
系列文
養爬蟲的人學爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言