iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 5
0
Big Data

研究爬蟲的世界系列 第 5

研究爬蟲的世界:Simple Crawler 的特色

既然還無法抉擇,那就先看看 framework 裡有哪些寶。

  • 提供一個非常簡單的事件導向 API
  • 以配置為基礎寫專屬於自己的爬蟲
  • 自動遵守 robots.txt 訂定的規則
  • 可彈性的控制 queue
  • 提供最基本的網路效能統計資訊
  • 抓取資料時有緩衝機制(buffers),但不包含探索 links 的時候。

最簡單的一個範例

var Crawler = require("simplecrawler");
var crawler = new Crawler("http://127.0.0.1:1337/");

crawler.on("crawlstart", function() {
    console.log("Crawl starting");
});

crawler.on("fetchstart", function(queueItem) {
    console.log("fetchStart", queueItem);
});

crawler.on("fetchcomplete", function(queueItem) {
    console.log("fetchcomplete", queueItem);
});

crawler.on("complete", function() {
    console.log("Finished!");
});

crawler.start();

附上原始碼



上一篇
研究爬蟲的世界:選擇框架的兩難
下一篇
研究爬蟲的世界:真實範例 - 爬 MSN 新聞標題
系列文
研究爬蟲的世界15
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言