前一篇文章帶大家看了 BeautifulSoup 庫的使用,用他來做資料清洗,使我們真正想要的資料能夠從一堆資料內被清理出來。
本篇將介紹網路爬蟲的類型,實際在撰寫時可以知道現在正在撰寫哪一類的爬蟲,與他們溝通時也會比較方便。也預防別人說爬蟲類型,卻不知道那是什麼。
網路爬蟲種類分為以下四類
通用網路爬蟲又稱全網爬蟲。從命名上來看,可以大致了解此爬蟲爬取的資料來自於全網際網路當中。
此爬蟲爬取的資料量十分巨大,因此對爬蟲的效能要求也是十分巨大的。此類爬蟲常見的有 Google、Bing 等瀏覽器。
聚焦網路爬蟲又稱主題網路爬蟲,此爬蟲只會選擇性的爬取需求的主題。與通用網路爬蟲相比,省下爬取無關的資料,只會爬取需求的資料。
增量式網路爬蟲的增量式指的是增量式更新。增量式更新代表更新時只更新改變的地方。
這類爬蟲能保證只爬取到新資料,能盡量減小空間與時間的消耗,不過實作上較為複雜,實際開發中不太普及。
深層網路爬蟲顧名思義就是爬取深層網頁的爬蟲,一般能透過靜態網址達到的網頁稱為表層網頁,需要透過 form 或其他形式達到的網頁稱為深層網頁。而深層網頁能獲取的資料量理論上較大,因此會盡量爬取此頁面。
實際上,聚焦網路爬蟲、增量式網路爬蟲及深層網路爬蟲可被歸納為一種,即為大家常稱的網路爬蟲。通用網路爬蟲則為搜尋引擎。
今天跟大家介紹了網路爬蟲的類型,其實大部分的網路爬蟲都是聚焦網路爬蟲,而搜尋引擎為通用網路爬蟲。
明天三天將會進行網路爬蟲的實戰,會帶各位爬取 PTT 歐,也會帶各位使用爬蟲繞過已滿 18 歲的確認。
網路爬蟲 智庫 : https://wiki.mbalib.com/zh-tw/网络爬虫
不慌,带你透彻了解爬虫类型 : https://cloud.tencent.com/developer/news/333998