iT邦幫忙

2021 iThome 鐵人賽

DAY 27
0
DevOps

中台化轉型系列 第 27

大數據平台:分散式計算

  • Spark
    支援批次資料、查詢分析、資料流、機器學習及圖處理(Graph Processing),以「彈性分散式資料集(Resilient Distributed Datasets, RDD)支援「資料切片」及「資料回朔」等特點,實現了「記憶體內計算(In-memory computing)」及「流程優化(Processes Optimization)」等功能。
  • Flink
    分散式資料流計算架構,在即時的資料查詢、反詐欺、資料分析、線上模型訓練和業務流程監控等場景,提供毫秒等級的運算滿足業務需求。
  • Beam
    一個分散式計算的通用架構,定義了了資料批次處理和資料流處理的「程式編程接口(Application Programming Interface, API)」統一標準,可以對接 Spark 及 Flink。
    • PCollection
      代表資料及與資料流的資料集,只能唯讀循序讀取,每筆資料都會附加時間戳記(Timestamp)。
    • PTransform
      採用函式語言程式設計(Functional Programming)提高系統的可測試性與平行處理效能。
    • Pipeline
      由 PCollection 以及 PTransform 資料處裡的運算流程圖。

上一篇
大數據平台:資料倉儲
下一篇
大數據平台:分散式檔案
系列文
中台化轉型30

尚未有邦友留言

立即登入留言