iT邦幫忙

DAY 21
0

分散式資料處理,以Stream Computing為例系列 第 21

Day 21: 分散式運算系統

  • 分享至 

  • xImage
  •  

談到分散式運算系統,大家最熟悉的應該是Hadoop。不過Hadoop是設計來處理high throughput的批次應用,相對來說不重視 latency。如果是要處理low latency應用的話就不適合用Hadoop了。

Hadoop是典型的Data parallelism,也就是將資料切成小塊,每一塊平行處理來增加處理時效。當然,這樣的資料平行化精神,你也可以自己將資料灑在多機上,在多機透過multi-thread / multi-process來達成,如果真的還不能達到 latency 要求的話,就要考慮再加上pipeline處理。

用上pipeline的話,要把整個運算過程拆成好幾個步驟,讓上一步驟的單筆資料的產出儘速傳送到下一步驟處理。這就像水在流動一樣,資料循著pipeline往下流。

而Stream Computing結合了Data parallelism與Pipeline,所以更加的複雜。


上一篇
Day 20: In-Memory 的技術議題?
下一篇
Day 22: 分散式運算系統的溝通方式
系列文
分散式資料處理,以Stream Computing為例30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言