分散式資料處理，以Stream Computing為例

ccshih (ccshih)

iT邦新手 4 級 ‧ 點數 558

31311

累計瀏覽數

18人

在追蹤

站內簡訊追蹤

鐵人檔案

2014 iT 邦幫忙鐵人賽

回列表

分散式資料處理，以Stream Computing為例系列

談到 big data，大家都把注意力放到 data science，但其實 data engineering 也一樣的重要。分散式資料處理是實現大規模資料處理的必要手段。在未來幾週內，希望能以 Stream Computing 為範例，介紹分散式資料處理中會遇到的各種問題與可能解決方法。

鐵人鍊成｜共 30 篇文章｜ 25 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 3710 瀏覽

DAY 21

Day 21: 分散式運算系統

談到分散式運算系統，大家最熟悉的應該是Hadoop。不過Hadoop是設計來處理high throughput的批次應用，相對來說不重視 latency。如果是...

2014-10-19 ‧ 由 ccshih 分享

0 Like 0 留言 7381 瀏覽

DAY 22

Day 22: 分散式運算系統的溝通方式

作業系統有兩種常用的inter-process communication方式： Shared memory: 當做白板來交換資料，缺點是很多人用的話要排隊(...

2014-10-20 ‧ 由 ccshih 分享

0 Like 0 留言 2877 瀏覽

DAY 23

Day 23: Stream Computing的應用範圍

Stream Computing 適用在有大量event湧進的應用，最常見的應用是activity analysis，比方說即時分析用戶在網站的瀏覽、點擊行為，...

2014-10-21 ‧ 由 ccshih 分享

0 Like 0 留言 4309 瀏覽

DAY 24

Day 24: Stream Computing特性

突然發現我好像還沒介紹過 Stream Computing :D Stream Computing 是設計給需要 low-latency 的應用。batch p...

2014-10-22 ‧ 由 ccshih 分享

0 Like 0 留言 3199 瀏覽

DAY 25

Day 25: 選擇Stream Computing框架

目前有幾種開源軟體可以選擇： Apache Storm Apache Samza Apache Spark Streaming 如果希望有sub...

2014-10-23 ‧ 由 ccshih 分享

0 Like 0 留言 3360 瀏覽

DAY 26

Day 26: Stream Computing 框架的組成角色

雖然Day 25有提到好幾種Stream Computing框架，但是這些這些框架都有一些共通的組成元素：從角色來看，分成幾組：處理 client 提出...

2014-10-24 ‧ 由 ccshih 分享

0 Like 0 留言 2723 瀏覽

DAY 27

Day 27: 如何追蹤每一個record的處理進度

在Stream Computing，一筆 record 可能會需要同時進行好幾種運算 (如: 更新各種counter, 計算統計值等等)。我們可以把一筆 rec...

2014-10-25 ‧ 由 ccshih 分享

0 Like 0 留言 2618 瀏覽

DAY 28

Day 28: 錯誤處理機制

昨天講到，Storm用Ackor將所有收到的ID XOR之後，來偵測一筆record是否已完全被處理。今天來講一下，如果遇到問題的話會怎麼處理。其中一個常見的...

2014-10-26 ‧ 由 ccshih 分享

1 Like 0 留言 4806 瀏覽

DAY 29

Day 29: 從Stream到Micro batch

昨天講到 pure stream computing 不能提供 exactly-once semantics，不過有許多應用都需要 exactly-once s...

2014-10-27 ‧ 由 ccshih 分享

0 Like 1 留言 2785 瀏覽

DAY 30

Day 30: Stream States & Finale

這是最後一篇文章囉，我要來介紹一下 stream computing 裡狀態的管理。所謂狀態是指處理過程中的副作用，比方說，要更新 counter。如果沒...

2014-10-28 ‧ 由 ccshih 分享

ccshih的鐵人檔案

ccshih的收藏

ccshih的追蹤

ccshih的Like

ccshih的紀錄

ccshih的訂閱列表

鐵人檔案

分散式資料處理，以Stream Computing為例 系列

標記使用者

分散式資料處理，以Stream Computing為例系列