iT邦幫忙

鐵人檔案

2014 iT 邦幫忙鐵人賽
回列表

分散式資料處理,以Stream Computing為例 系列

談到 big data,大家都把注意力放到 data science,但其實 data engineering 也一樣的重要。分散式資料處理 是 實現 大規模資料處理 的必要手段。在未來幾週內,希望能以 Stream Computing 為範例,介紹分散式資料處理中會遇到的各種問題與可能解決方法。

鐵人鍊成 | 共 30 篇文章 | 12 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day 11: Zookeeper

現在很多分散式系統都會用Zookeeper,在Day 5也有稍微提到一下Zookeeper可以用來維護partition metadata。現在就來多介紹一些Z...

2014-10-09 ‧ 由 ccshih 分享
DAY 12

Day 12: Zookeeper (續)

Zookeeper能保證global order,因為只有leader能處理寫入要求。Zookeeper在partition發生時仍能維持服務,因為採用了Quo...

2014-10-10 ‧ 由 ccshih 分享
DAY 13

Day 13: Apache Kafka

Apache Kafka 是一個 Distributed Queue 的實現,很多 Stream Computing 平台都支援 Kafka 作為 data s...

2014-10-11 ‧ 由 ccshih 分享
DAY 14

Day 14: Apache Kafka (2)

先來介紹一下Kafka的基本架構吧 (以下圖片都取自Kafka documentation)。 基本上Kafka是一個broker的角色,仲介producer與...

2014-10-12 ‧ 由 ccshih 分享
DAY 15

Day 15: Apache Kafka (3)

以下是Kafka的設計所帶來的限制: Consumer Group裡的consumer數量 不能小於 partition 數量。不然就會有partition裡...

2014-10-13 ‧ 由 ccshih 分享
DAY 16

Day 16: Apache Kafka (4)

今天來講一下Kafka的replication機制 Kafka的replication是以partition做單位,方法也很簡單,就是讓replica去訂閱要追...

2014-10-14 ‧ 由 ccshih 分享
DAY 17

Day 17: Apache kafka (5)

啊哈,沒想到Kafka可以寫到第五篇啊... 今天要講的是ack,ack問題在stream computing裡也會遇到,這邊就來先提一下。 stream co...

2014-10-15 ‧ 由 ccshih 分享
DAY 18

Day 18: Apache Kafka 與 Stream Computing

至於為什麼 Kafka 適合搭配 Stream Computing呢? 因為 Stream Computing 本質上也是一種可平行處理、易擴充的分散式處理架構...

2014-10-16 ‧ 由 ccshih 分享
DAY 19

Day 19: 分散式資料系統 vs. 科層組織

讓我們用科層組織來類比分散式資料系統,作為分散式資料系統的小節吧。 我們從 partition 和 replication 談起,partition 就像科層組...

2014-10-17 ‧ 由 ccshih 分享
DAY 20

Day 20: In-Memory 的技術議題?

這篇跟Day 10是同系列的,同樣是關於In-Memory的問題。 受惠於 Memory的性價比越來越高,越來越多廠商推出 In-Memory Computin...

2014-10-18 ‧ 由 ccshih 分享