資料來源:馬剛 - 基於語意的數據挖掘
General Purpose Web Crawler
別名 Scalable Web Crawler,爬行對象從一個種子 URL 開始擴大到整個 Web,主要為入口網站搜尋引擎的爬蟲,追求最大覆蓋率。
體系結構
Focused Web Crawler
根據特定目標抓取,有選擇性的訪問網路上的頁面與相關的連結,獲取所需要的訊息。
Incremental Web Crawler
針對已經下載的網頁採取增量式更新,只爬行新產生的網頁或著已經發生變化的網頁的爬蟲,確保資訊是最新的。
Deep Web Crawler
普通搜尋引擎難以發現的網頁,深層頁面中的資訊量比普通的頁面資訊量更多,而且質量更好,但是普通的搜索引擎因技術限制而搜集不到這些訊息。例如必須登入資後才能得到的資訊,或跟頁面有 Javascript 互動後才能取得的資訊。