【Day 13】不同的爬蟲種類

2022 iThome 鐵人賽

DAY 13

自我挑戰組

14th鐵人賽

3053 瀏覽

閒聊
在昨天學習了BeautifulSoup套件後，今天來看看爬蟲究竟有分為哪些種類，以及它們之間的差別。

種類

通用網路爬蟲 General Purpose Web Crawler
又稱為「全網爬蟲」，爬蟲的資料主要來自於全網際網路。
這類爬蟲主要是蒐集每個網站的特色資訊，所以範圍、數據量龐大。
例如：Google、Yahoo、百度搜尋引擎。

聚焦網路爬蟲 Focused Crawler
又稱為「主題網路爬蟲」，主要依據需求選擇性爬取相關頁面，不會廣泛爬取。

增量式網路爬蟲 Incremental Web Crawler
主要是爬取新增網頁或是已更新網頁，這類爬蟲可以減少數據下載量，可以節省時間、空間。
但也需要比較複雜的演算法，設計執行上比較困難。
目前比較少實務應用。

深層網路爬蟲 Deep Web Crawler
顧名思義就是爬取深層的內容，一般可以爬取的網頁是表層的內容。
這類主要爬取內容無法從靜態URL，只有用戶提交表單時才能獲得的網路訊息（例如需要輸入帳號密碼）。
而且深層的內容理論上能獲取的資料量較大，因此會儘量爬取此頁面。

實際上：

搜尋引擎工作原理
也可以稱為通用網路爬蟲工作原理。

網路爬蟲工作原理

結語
在今天之前，我也只知道網路爬蟲而已，原來還有分為這幾個種類！
知道這些種類後，以後需要獲取不同資料的時候，就知道可以使用哪種爬蟲種類了。

明天！
【Day 14】爬進PTT的網頁吧！（實戰PTT 1/3）

參考資料
Python網路爬蟲：誰是真正的鄉民之王？https://deepmind.com.tw/sse%E7%9F%A5%E8%AD%98%E8%A3%9C%E7%B5%A6%E7%AF%84%E4%BE%8B/

系列文

養爬蟲的人學爬蟲共 30 篇

15 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙