從實用的角度討論Modern Data Stack(好像是翻現代資料棧?)的設計與應用,也分享一些個人與公司在實作應用MDS的一些數據與雲端轉型的案例!
前言 九、十月是各種雲端與圓體工具研討會、峰會的旺季,也是每年跟一些同業、老同事交流的好機會。前幾天正好與一些數位團隊的Team Lead在研(吃)討(宵)會(...
Data Vault 簡介 Data Vault(資料金庫?以下簡稱DV)是一種資料架構模型和技巧,而主要是為了組織大規模且高擴展性(Scalability)的...
輪輻式模型實體(Entity) 為了在設計上實現資料模型上的重用性與模塊化,DV模型設計主要是以業務鍵(Business Key)為中心的輪輻式(Hub-and...
資料處理系統中DV的定位 在現代資料棧(Modern Data Stack,以下簡稱MDS)中,資料通常會被分成三大層: 原始資料層(Raw Data Lay...
在資料倉庫用dbt實踐DV 看到系列文的標題,我想選擇用dbt來做案例應該是意料中吧!雖然說DV的發明比dbt推出早了約30年,我個人認為在這個時間點上用dbt...
dbt package類型 在實際操作之前,先講解一下會使用到的dbt package類型: 資料模型構建巨集 ( Data Modelling Macros...
前言 終於要到實際操作的部分了!這裡會用上一篇文章介紹的dbt-data-vault-template的模板package和裡面AutomateDV的實際案例。...
種子資料(seed data)源設定 在這個案例模板裡,加入種子資料只是為了模擬一般資料處理管道的資料源,所以我只簡單帶過。除了上一篇文章提到的dbt_proj...
插曲:hashdiff與DV 2.0 在進入實際創建DV資料模型之前,要先簡單解釋一下hash key和hashdiff的用法。簡單來說,散列演算法(hasin...
stage層:non-persistent staging 可以從Part 1提到的設定檔裡看出來,相對psa的持久暫存區,stage層則是整合層內的非持久暫存...