分散式資料處理，以Stream Computing為例

ccshih (ccshih)

iT邦新手 4 級 ‧ 點數 558

31438

累計瀏覽數

18人

在追蹤

站內簡訊追蹤

鐵人檔案

2014 iT 邦幫忙鐵人賽

回列表

分散式資料處理，以Stream Computing為例系列

談到 big data，大家都把注意力放到 data science，但其實 data engineering 也一樣的重要。分散式資料處理是實現大規模資料處理的必要手段。在未來幾週內，希望能以 Stream Computing 為範例，介紹分散式資料處理中會遇到的各種問題與可能解決方法。

鐵人鍊成｜共 30 篇文章｜ 25 人訂閱訂閱系列文 RSS系列文

2 Like 0 留言 4969 瀏覽

DAY 1

想要Scalabilty嗎？拿東西來換吧！

一個系統走向分散式，一定有其不得不為的理由。Scalability是最常見的理由之一。我先簡單的將Scalabilty的需求分成兩種： Data Scala...

2014-09-29 ‧ 由 ccshih 分享

0 Like 0 留言 4787 瀏覽

DAY 2

Day 2: 分散式系統的面向

昨天的重點歸納一句話就是：分散式系統都是特化的，而不是通用的。所以不同的設計決策就會衍生出不同用途的系統。也如同昨天所說，我先大致將分散式系統分種兩種：資料系...

2014-09-30 ‧ 由 ccshih 分享

0 Like 0 留言 4911 瀏覽

DAY 3

Day 3: Partition

分散式資料系統的兩個問題根源：partition 和 replication。先談partition。當資料放不進一台機器，或是對資料的運算太過耗時，單台機器...

2014-10-01 ‧ 由 ccshih 分享

1 Like 1 留言 3622 瀏覽

DAY 4

Day 4: 為什麼有有些時候不要把query灑到所有機器上平行處理？

昨天講到partition，事實上partition比較常用在write需求高的應用(平行寫)，這是為什麼呢？以前同事問過一個問題：既然有多台機器，那當然是把...

2014-10-02 ‧ 由 ccshih 分享

0 Like 0 留言 4282 瀏覽

DAY 5

Day 5: 資料切割的metadata管理

啊啊今天要談什麼呢？來談談資料切割的metadata好了。現在有好幾台機器，都必須要follow同一套的資料切割方式，這個切割方式存在metadata中。...

2014-10-03 ‧ 由 ccshih 分享

0 Like 0 留言 3207 瀏覽

DAY 6

Day 6: Replication

今天來談談資料複製吧資料複製是維持可用性的方法，因為資料複製好幾份到不同機器，所以只要有一台機器還在，資料就拿的到。但只要有資料複製，就一定會有延遲的狀況，...

2014-10-04 ‧ 由 ccshih 分享

0 Like 0 留言 3332 瀏覽

DAY 7

Day 7: 無強一致性及無法決定執行順序帶來的問題

昨天講到多數系統不允許在副本寫入，因為如果有好幾個寫入同時發生在不同的節點上，資料會不一致。就算能忍受資料不一致，也缺乏一個跨節點且精確同步的時鐘來協調出這些寫...

2014-10-05 ‧ 由 ccshih 分享

0 Like 0 留言 6344 瀏覽

DAY 8

Day 8: 最終一致性

昨天講到執行時序的問題。當需要解決資料時序的問題時，表示已經放棄強一致性 (Strong Consistency)了，轉而只追求最終一致性 (Eventuall...

2014-10-06 ‧ 由 ccshih 分享

1 Like 0 留言 8191 瀏覽

DAY 9

Day 9: CAP Theorem

CAP Theorem 的 CAP 分別是指： C (Strong Consistency): 在任何時候，從叢集中的任兩個節點得到的狀態都是一樣的。 A (...

2014-10-07 ‧ 由 ccshih 分享

1 Like 0 留言 3359 瀏覽

DAY 10

Day 10: In-Memory data

本來今天應該要寫 Zookeeper 的，不過看到這是第10天，想說來點特別的。所以臨時插進來這個題目。這個題目我不想講太多，只是想丟個問題給大家來討論一下。...

2014-10-08 ‧ 由 ccshih 分享

ccshih的鐵人檔案

ccshih的收藏

ccshih的追蹤

ccshih的Like

ccshih的紀錄

ccshih的訂閱列表

鐵人檔案

分散式資料處理，以Stream Computing為例 系列

標記使用者

分散式資料處理，以Stream Computing為例系列