談到 big data,大家都把注意力放到 data science,但其實 data engineering 也一樣的重要。分散式資料處理 是 實現 大規模資料處理 的必要手段。在未來幾週內,希望能以 Stream Computing 為範例,介紹分散式資料處理中會遇到的各種問題與可能解決方法。
現在很多分散式系統都會用Zookeeper,在Day 5也有稍微提到一下Zookeeper可以用來維護partition metadata。現在就來多介紹一些Z...
Zookeeper能保證global order,因為只有leader能處理寫入要求。Zookeeper在partition發生時仍能維持服務,因為採用了Quo...
Apache Kafka 是一個 Distributed Queue 的實現,很多 Stream Computing 平台都支援 Kafka 作為 data s...
先來介紹一下Kafka的基本架構吧 (以下圖片都取自Kafka documentation)。 基本上Kafka是一個broker的角色,仲介producer與...
以下是Kafka的設計所帶來的限制: Consumer Group裡的consumer數量 不能小於 partition 數量。不然就會有partition裡...
今天來講一下Kafka的replication機制 Kafka的replication是以partition做單位,方法也很簡單,就是讓replica去訂閱要追...
啊哈,沒想到Kafka可以寫到第五篇啊... 今天要講的是ack,ack問題在stream computing裡也會遇到,這邊就來先提一下。 stream co...
至於為什麼 Kafka 適合搭配 Stream Computing呢? 因為 Stream Computing 本質上也是一種可平行處理、易擴充的分散式處理架構...
讓我們用科層組織來類比分散式資料系統,作為分散式資料系統的小節吧。 我們從 partition 和 replication 談起,partition 就像科層組...
這篇跟Day 10是同系列的,同樣是關於In-Memory的問題。 受惠於 Memory的性價比越來越高,越來越多廠商推出 In-Memory Computin...