dbt 近年來是許多數據團隊的熱門選擇,在資料轉換與資料治理的領域中提供很強大的框架去做更好的管理。
從導入 dbt 到現在歷經了一年多的時間,在開發的過程中,我們一路遵循著 dbt 的 best practice guide,但仍然遇到不少取捨或挑戰,因此希望透過這個系列的文章,梳理在整趟旅程中的各種甘苦談。
在這邊我會盡可能略過在文件中已經有仔細說明的環節(附上連結讓有興趣的人可以去研究),不再重複討論,而是專注在討論按照文件進行部署時,我們團隊在實戰時面臨的挑戰。
大家好,我是阿晟,目前任職於均一教育平台的資料治理組。雖然是資料工程師,不過工作範圍涵蓋 data infra 的建立、pipeline 與 API 的維運與優...
「BigQuery 是什麼?大數據時代一定要認識的最強資料分析工具」—— 搜尋 BigQuery 時的第一個網頁。 BigQuery 的功能實在強大,資料存儲、...
如果還沒有看上一篇的讀者,歡迎先看看我們在使用 BigQuery procedure 來做資料轉換遇到了什麼痛點,本篇會針對上一篇的幾個痛點一一做討論~ 一、...
前面說完了我們評估新工具的歷程,接下來就要開始實作啦!其實如果對 dbt 不是很熟悉的人,或許前幾篇前情提要,更適合在整個系列的最後回頭來看。 要把所有的 s...
前兩天提到 dbt 將資料庫由上游至下游分成了 staging, intermediate, marts,今天來說說在各階段中模型命名時遇到的難題。 真的不要小...
上一章談完模型命名的重要,足以讓我們不看 sql code 就知道模型裡面寫了什麼。接著來談談模型內容的命名。 首先是欄位的部分,最基本的是統一格式,提一些實用...
從 staging 到 marts 這幾個階段分別要做什麼轉換,過去有蠻多人討論過的,這邊挑一篇讓大家參考(連結)。 今天想來談談看了文件的切分方法之後,實作時...
前面花了蠻多力氣講述欄位名稱要怎麼統一樣式,為的就是整齊、好辨認。 今天就來談談如何寫好文件!先從開發工具開始講起: 我們使用的是 dbt core,在 vsc...
上一篇談我們怎麼做文件開發,這篇從管理的角度切入。 要多長有多長,越長越好 從進到這個組織開始,我感覺一直在嘗試沒碰過的領域跟專案,搭著 AI 的浪潮,文件跟...
在 yaml file 中,除了前面說到的資料表、欄位說明之外,還有另一項重要的任務,就是測試(文件)。 老實說,我們的測試還不算太完整,雖然拿了很多後端的概念...