分散式資料處理，以Stream Computing為例

ccshih (ccshih)

iT邦新手 4 級 ‧ 點數 558

31310

累計瀏覽數

18人

在追蹤

站內簡訊追蹤

鐵人檔案

2014 iT 邦幫忙鐵人賽

回列表

分散式資料處理，以Stream Computing為例系列

談到 big data，大家都把注意力放到 data science，但其實 data engineering 也一樣的重要。分散式資料處理是實現大規模資料處理的必要手段。在未來幾週內，希望能以 Stream Computing 為範例，介紹分散式資料處理中會遇到的各種問題與可能解決方法。

鐵人鍊成｜共 30 篇文章｜ 25 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 4530 瀏覽

DAY 11

Day 11: Zookeeper

現在很多分散式系統都會用Zookeeper，在Day 5也有稍微提到一下Zookeeper可以用來維護partition metadata。現在就來多介紹一些Z...

2014-10-09 ‧ 由 ccshih 分享

0 Like 0 留言 3979 瀏覽

DAY 12

Day 12: Zookeeper (續)

Zookeeper能保證global order，因為只有leader能處理寫入要求。Zookeeper在partition發生時仍能維持服務，因為採用了Quo...

2014-10-10 ‧ 由 ccshih 分享

0 Like 0 留言 12846 瀏覽

DAY 13

Day 13: Apache Kafka

Apache Kafka 是一個 Distributed Queue 的實現，很多 Stream Computing 平台都支援 Kafka 作為 data s...

2014-10-11 ‧ 由 ccshih 分享

2 Like 0 留言 28926 瀏覽

DAY 14

Day 14: Apache Kafka (2)

先來介紹一下Kafka的基本架構吧 (以下圖片都取自Kafka documentation)。基本上Kafka是一個broker的角色，仲介producer與...

2014-10-12 ‧ 由 ccshih 分享

0 Like 0 留言 10586 瀏覽

DAY 15

Day 15: Apache Kafka (3)

以下是Kafka的設計所帶來的限制： Consumer Group裡的consumer數量不能小於 partition 數量。不然就會有partition裡...

2014-10-13 ‧ 由 ccshih 分享

0 Like 0 留言 7627 瀏覽

DAY 16

Day 16: Apache Kafka (4)

今天來講一下Kafka的replication機制 Kafka的replication是以partition做單位，方法也很簡單，就是讓replica去訂閱要追...

2014-10-14 ‧ 由 ccshih 分享

0 Like 0 留言 7173 瀏覽

DAY 17

Day 17: Apache kafka (5)

啊哈，沒想到Kafka可以寫到第五篇啊... 今天要講的是ack，ack問題在stream computing裡也會遇到，這邊就來先提一下。 stream co...

2014-10-15 ‧ 由 ccshih 分享

0 Like 0 留言 8281 瀏覽

DAY 18

Day 18: Apache Kafka 與 Stream Computing

至於為什麼 Kafka 適合搭配 Stream Computing呢？因為 Stream Computing 本質上也是一種可平行處理、易擴充的分散式處理架構...

2014-10-16 ‧ 由 ccshih 分享

0 Like 0 留言 4360 瀏覽

DAY 19

Day 19: 分散式資料系統 vs. 科層組織

讓我們用科層組織來類比分散式資料系統，作為分散式資料系統的小節吧。我們從 partition 和 replication 談起，partition 就像科層組...

2014-10-17 ‧ 由 ccshih 分享

0 Like 0 留言 7389 瀏覽

DAY 20

Day 20: In-Memory 的技術議題?

這篇跟Day 10是同系列的，同樣是關於In-Memory的問題。受惠於 Memory的性價比越來越高，越來越多廠商推出 In-Memory Computin...

2014-10-18 ‧ 由 ccshih 分享

ccshih的鐵人檔案

ccshih的收藏

ccshih的追蹤

ccshih的Like

ccshih的紀錄

ccshih的訂閱列表

鐵人檔案

分散式資料處理，以Stream Computing為例 系列

標記使用者

分散式資料處理，以Stream Computing為例系列