iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 12
0
Big Data

研究爬蟲的世界系列 第 12

研究爬蟲的世界:基於語意的數據挖掘 - Web 抓取 (重點整理)

  • 分享至 

  • xImage
  •  

資料來源:馬剛 - 基於語意的數據挖掘

爬蟲行為策略

  • 選擇策略:決定所要下載的頁面
  • 重新訪問策略:決定什麼時候檢查頁面的更新變化
  • 平衡禮貌策略:指出怎麼避免站點超載
  • 並行策略:指出怎麼協同達到分散式抓取的效果

抓取網頁策略

  • 廣度優先策略
  • 根度優先策略

爬蟲種類

General Purpose Web Crawler

別名 Scalable Web Crawler,爬行對象從一個種子 URL 開始擴大到整個 Web,主要為入口網站搜尋引擎的爬蟲,追求最大覆蓋率。

體系結構

  • 頁面爬行模組
  • 頁面分析模組
  • 連結過濾模組
  • 頁面資料庫
  • URL queue
  • 初始化 URL

Focused Web Crawler

根據特定目標抓取,有選擇性的訪問網路上的頁面與相關的連結,獲取所需要的訊息。

Incremental Web Crawler

針對已經下載的網頁採取增量式更新,只爬行新產生的網頁或著已經發生變化的網頁的爬蟲,確保資訊是最新的。

Deep Web Crawler

普通搜尋引擎難以發現的網頁,深層頁面中的資訊量比普通的頁面資訊量更多,而且質量更好,但是普通的搜索引擎因技術限制而搜集不到這些訊息。例如必須登入資後才能得到的資訊,或跟頁面有 Javascript 互動後才能取得的資訊。



上一篇
研究爬蟲的世界 - Simple Crawler Queue
下一篇
研究爬蟲的世界 - Scrapy 安裝
系列文
研究爬蟲的世界15
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言