iT邦幫忙

2023 iThome 鐵人賽

DAY 23
1
過去時常聽到 Data warehouse, Data lake, Data mart 等名詞,有點熟悉但也不知道資料架構演進的來龍去脈, Fundamental of Data Engineering 這本書詳細解釋各資料架構的演進及核心概念
  • 資料倉儲與資料湖的發展過程

    • 傳統 Data warehouse

    • 概念

      自 1980 年代開始,公司用 on-premise 打造 OLAP(online analytical processing) data warehouse,且與產品資料庫分開,且為了強調大規模查詢,大型公司流行用 MPP 資料庫打造 data warehouse

    • 傳統 Data warehouse 資料流

    https://ithelp.ithome.com.tw/upload/images/20230929/20162689Gn4M4iaQDx.jpg

    • 特色
      1. 資料中心化
      2. 資料儲存格式化,因此導入 Data warehouse 前會經過 ETL 過程
  • 雲端 data warehouse

    • 概念

      到了 2010 年代,雲端資料庫開始出現,一樣用多節點的系統架構,但分離儲存和運算,且不用維護 on-premise 機器, e.g. bigquery, snowflake

    • 特色

    1. 分離儲存和運算:可以儲存及運算更大量資料
    2. 降低長期成本:有需要運算時再開啟機器,節省維運機器成本
  • Data marts

    • 概念:為了讓資料使用者更方便取得及使用資料,讓資料轉換過程於 ETL 之後,可以更有效率實現複雜的邏輯轉換
  • Data lake

    • 概念:大數據時代開始時,為了儲存更大更多樣化的資料,而使用資料湖(Data lake)把所有資料都放進去,也是 Hadoop 生態最興盛之時。然而處理資料過程複雜、興建及維運成本高昂…等等限制下,只有大公司玩得起。所以後來的雲端平台 GCP, AWS 等業者讓 Data lake 和 Data warehouse 的概念收斂
  • 現代資料棧(Modern Data stack)

    • 現代資料棧資料流程圖

    https://ithelp.ithome.com.tw/upload/images/20230929/201626894iZTIjgmdb.jpg

    • 特色

      相較過去 Data warehouse 的中心化及單一機器化,Modern Data stack 強調雲端化、現成模組隨插即用、易上手…等特點。而資料工程師未來已經不需要選擇 Data lake or Data warehouse,因為各家雲端平台都包含這些能力,而是要去選擇使用哪個平台

      這些模組包含 data pipeline 、儲存、轉換、監控、視覺化…等,例如 GCP 平台的 dataflow, cloud storage, bigquery, looker 各種模組,且本書作者認為現代資料棧仍是未來幾年的趨勢

現代資料棧(Modern Data stack)

  • 現代資料棧資料流程圖

https://ithelp.ithome.com.tw/upload/images/20231008/20162689A4Z3W8n2lD.jpg

  • 特色

    相較過去 Data warehouse 的中心化及單一機器化,Modern Data stack 強調雲端化、現成模組隨插即用、易上手…等特點。而資料工程師未來已經不需要選擇 Data lake or Data warehouse,因為各家雲端平台都包含這些能力,而是要去選擇使用哪個平台

    這些模組包含 data pipeline 、儲存、轉換、監控、視覺化…等,例如 GCP 平台的 dataflow, cloud storage, bigquery, looker 各種模組,且本書作者認為現代資料棧仍是未來幾年的趨勢

Data Mesh

  • 概念

    這是近五年受到關注的概念,相對於上面提到的中心化 Data Lake 或 Data Warehouse ,Data Mesh 強調以專業知識為導向(domain-driven) 來設計資料架構,例如 LINE 集團可能 LINE 通訊、LINE Pay、LINE TV 各自擁有 Data warehouse,且共用同個運算平台

  • 特色

    1. 專業領域為導向的去中心化 data 擁有者
    2. 資料即產品
    3. 自己取用資料,不依賴資料工程師及科學家(self-serve data platform)

https://ithelp.ithome.com.tw/upload/images/20231008/20162689w8SzmdH0Kx.jpg


上一篇
Fundamental of Data Engineering 讀書心得 - 為何推薦這本書及資料工程師的兩種角色
下一篇
Fundamental of Data Engineering 讀書心得- Good Architecture 的9個原則
系列文
如何借助 dbt 優化當代資料倉儲及資料工程師的水肥之路分享30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言