iT邦幫忙

2017 iT 邦幫忙鐵人賽
DAY 8
0
Big Data

研究爬蟲的世界系列 第 8

研究爬蟲的世界 - Simple Crawler 常用配置

  • 分享至 

  • xImage
  •  

maxDepth

設定爬行的深度

“六度空間”理論又稱作六度分隔(Six Degrees of Separation)理論。簡單地說:“你和任何一個陌生人之間所間隔的人不會超過五個,也就是說,最多通過五個中間人你就能夠認識任何一個陌生人。” >>>MBA lib 六度空間

crawler.maxDepth = 3;

interval

設定每一次 request 需間隔的時間長度,單位是毫秒。

crawler.interval=250

maxConcurrency

最大限制的 Concurrency,預設是 5

crawler.maxConcurrency=5

userAgent

爬蟲會留下的足跡,如果沒特別設定的話,會帶下面那組 userAgent,但也可以更改它。

crawler.userAgent="Node/simplecrawler <version> (https://github.com/cgiffard/node-simplecrawler)"


上一篇
研究爬蟲的世界 - Simple Crawler 常用事件
下一篇
研究爬蟲的世界 - Simple Crawler 抓取條件
系列文
研究爬蟲的世界15
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言