研究爬蟲的世界：基於語意的數據挖掘 - Web 抓取 (重點整理) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2017 iT 邦幫忙鐵人賽

DAY 12

Big Data

研究爬蟲的世界系列第 12 篇

研究爬蟲的世界：基於語意的數據挖掘 - Web 抓取 (重點整理)

2017鐵人賽網路爬蟲

alincode

2016-12-27 22:18:45

2985 瀏覽

分享至

資料來源：馬剛 - 基於語意的數據挖掘

爬蟲行為策略

選擇策略：決定所要下載的頁面
重新訪問策略：決定什麼時候檢查頁面的更新變化
平衡禮貌策略：指出怎麼避免站點超載
並行策略：指出怎麼協同達到分散式抓取的效果

抓取網頁策略

廣度優先策略
根度優先策略

爬蟲種類

General Purpose Web Crawler

別名 Scalable Web Crawler，爬行對象從一個種子 URL 開始擴大到整個 Web，主要為入口網站搜尋引擎的爬蟲，追求最大覆蓋率。

體系結構

頁面爬行模組
頁面分析模組
連結過濾模組
頁面資料庫
URL queue
初始化 URL

Focused Web Crawler

根據特定目標抓取，有選擇性的訪問網路上的頁面與相關的連結，獲取所需要的訊息。

Incremental Web Crawler

針對已經下載的網頁採取增量式更新，只爬行新產生的網頁或著已經發生變化的網頁的爬蟲，確保資訊是最新的。

Deep Web Crawler

普通搜尋引擎難以發現的網頁，深層頁面中的資訊量比普通的頁面資訊量更多，而且質量更好，但是普通的搜索引擎因技術限制而搜集不到這些訊息。例如必須登入資後才能得到的資訊，或跟頁面有 Javascript 互動後才能取得的資訊。

研究爬蟲的世界 - Simple Crawler Queue

研究爬蟲的世界 - Scrapy 安裝

系列文

研究爬蟲的世界共 15 篇

RSS系列文訂閱系列文

36 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙