iT邦幫忙

2021 iThome 鐵人賽

DAY 26
0
DevOps

中台化轉型系列 第 26

大數據平台:資料倉儲

  • Hive
    適用於 PB 等級大數據的儲存,分析和查詢,處李日誌分析和用戶行為模型訓練。
    1. SQL 語法支援
      將查詢語法轉換為「抽象語法樹(Abstract Syntax Tree, AST)」以及使用者自定義函式(User-Defined Function, UDF) 產生執行計畫。
    2. 結構化資料模型
      透過 MetaStore 管理系統元資料,將實際資料儲存於 HDFS,支援多種資料格式:TextFile、SequenceFile、ORCFile、Parquet 和 Avro。
    3. 資料運算模組
      支援 MapReduce、Spark。
  • Presto
    適用於 GB 到 TB 等級的資料量,在需要即時回應的資料查詢場警,提升商業化服務。
    • 使芿基於「記憶池(Memory Pool)」的資料模型。
    • 系統架構:
      • Cordinator:負責語法解析產生執行計畫,節點(Worker)管理及任務分發。
      • Worker:負責與 Hive 和 HDFS 互動,執行任務及實際運算。
    • SQL 查詢優化,提高系統問定性和執行效率,支援不同資料來源的即時跨平台資料計算。

上一篇
大數據平台:分散式協調
下一篇
大數據平台:分散式計算
系列文
中台化轉型30

尚未有邦友留言

立即登入留言