過去時常聽到 Data warehouse, Data lake, Data mart 等名詞,有點熟悉但也不知道資料架構演進的來龍去脈, Fundamental of Data Engineering 這本書詳細解釋各資料架構的演進及核心概念
資料倉儲與資料湖的發展過程
傳統 Data warehouse
概念
自 1980 年代開始,公司用 on-premise 打造 OLAP(online analytical processing) data warehouse,且與產品資料庫分開,且為了強調大規模查詢,大型公司流行用 MPP 資料庫打造 data warehouse
傳統 Data warehouse 資料流
雲端 data warehouse
概念
到了 2010 年代,雲端資料庫開始出現,一樣用多節點的系統架構,但分離儲存和運算,且不用維護 on-premise 機器, e.g. bigquery, snowflake
特色
Data marts
Data lake
現代資料棧(Modern Data stack)
特色
相較過去 Data warehouse 的中心化及單一機器化,Modern Data stack 強調雲端化、現成模組隨插即用、易上手…等特點。而資料工程師未來已經不需要選擇 Data lake or Data warehouse,因為各家雲端平台都包含這些能力,而是要去選擇使用哪個平台
這些模組包含 data pipeline 、儲存、轉換、監控、視覺化…等,例如 GCP 平台的 dataflow, cloud storage, bigquery, looker 各種模組,且本書作者認為現代資料棧仍是未來幾年的趨勢
特色
相較過去 Data warehouse 的中心化及單一機器化,Modern Data stack 強調雲端化、現成模組隨插即用、易上手…等特點。而資料工程師未來已經不需要選擇 Data lake or Data warehouse,因為各家雲端平台都包含這些能力,而是要去選擇使用哪個平台
這些模組包含 data pipeline 、儲存、轉換、監控、視覺化…等,例如 GCP 平台的 dataflow, cloud storage, bigquery, looker 各種模組,且本書作者認為現代資料棧仍是未來幾年的趨勢
概念
這是近五年受到關注的概念,相對於上面提到的中心化 Data Lake 或 Data Warehouse ,Data Mesh 強調以專業知識為導向(domain-driven) 來設計資料架構,例如 LINE 集團可能 LINE 通訊、LINE Pay、LINE TV 各自擁有 Data warehouse,且共用同個運算平台
特色