iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
AI/ ML & Data

這跟文件說的不一樣!從 0 到 1 導入 dbt 的實戰甘苦談 系列

dbt 近年來是許多數據團隊的熱門選擇,在資料轉換與資料治理的領域中提供很強大的框架去做更好的管理。

從導入 dbt 到現在歷經了一年多的時間,在開發的過程中,我們一路遵循著 dbt 的 best practice guide,但仍然遇到不少取捨或挑戰,因此希望透過這個系列的文章,梳理在整趟旅程中的各種甘苦談。

在這邊我會盡可能略過在文件中已經有仔細說明的環節(附上連結讓有興趣的人可以去研究),不再重複討論,而是專注在討論按照文件進行部署時,我們團隊在實戰時面臨的挑戰。

參賽天數 13 天 | 共 13 篇文章 | 4 人訂閱 訂閱系列文 RSS系列文 團隊資料工程師甘苦談
DAY 1

DAY 1 我是誰?我從哪裡來?我要去哪裡?-旅程開始前的前情提要

大家好,我是阿晟,目前任職於均一教育平台的資料治理組。雖然是資料工程師,不過工作範圍涵蓋 data infra 的建立、pipeline 與 API 的維運與優...

2024-09-15 ‧ 由 阿晟 分享
DAY 2

DAY 2 BigQuery 無所不能?-BigQuery Procedure 的限制與挑戰

「BigQuery 是什麼?大數據時代一定要認識的最強資料分析工具」—— 搜尋 BigQuery 時的第一個網頁。 BigQuery 的功能實在強大,資料存儲、...

2024-09-16 ‧ 由 阿晟 分享
DAY 3

DAY 3 告別痛點-為何我們決定導入 dbt 優化資料轉換

如果還沒有看上一篇的讀者,歡迎先看看我們在使用 BigQuery procedure 來做資料轉換遇到了什麼痛點,本篇會針對上一篇的幾個痛點一一做討論~ 一、...

2024-09-17 ‧ 由 阿晟 分享
DAY 4

DAY 4 「這跟文件說的不一樣!」的開始-dbt 導入的實作流程

前面說完了我們評估新工具的歷程,接下來就要開始實作啦!其實如果對 dbt 不是很熟悉的人,或許前幾篇前情提要,更適合在整個系列的最後回頭來看。 要把所有的 s...

2024-09-18 ‧ 由 阿晟 分享
DAY 5

DAY 5 Structure 跟文件說的不一樣!談模型命名

前兩天提到 dbt 將資料庫由上游至下游分成了 staging, intermediate, marts,今天來說說在各階段中模型命名時遇到的難題。 真的不要小...

2024-09-19 ‧ 由 阿晟 分享
DAY 6

DAY 6 Style 跟文件說的不一樣!談欄位命名

上一章談完模型命名的重要,足以讓我們不看 sql code 就知道模型裡面寫了什麼。接著來談談模型內容的命名。 首先是欄位的部分,最基本的是統一格式,提一些實用...

2024-09-20 ‧ 由 阿晟 分享
DAY 7

DAY 7 Structure 跟文件說的不一樣!從 staging 到 marts:不同階段的數據處理共識

從 staging 到 marts 這幾個階段分別要做什麼轉換,過去有蠻多人討論過的,這邊挑一篇讓大家參考(連結)。 今天想來談談看了文件的切分方法之後,實作時...

2024-09-21 ‧ 由 阿晟 分享
DAY 8

DAY 8 Docs 跟文件說的不一樣!談文件開發

前面花了蠻多力氣講述欄位名稱要怎麼統一樣式,為的就是整齊、好辨認。 今天就來談談如何寫好文件!先從開發工具開始講起: 我們使用的是 dbt core,在 vsc...

2024-09-22 ‧ 由 阿晟 分享
DAY 9

DAY 9 Docs 跟文件說的不一樣!談文件管理

上一篇談我們怎麼做文件開發,這篇從管理的角度切入。 要多長有多長,越長越好 從進到這個組織開始,我感覺一直在嘗試沒碰過的領域跟專案,搭著 AI 的浪潮,文件跟...

2024-09-23 ‧ 由 阿晟 分享
DAY 10

DAY 10 測試跟文件說的不一樣!談測試架構

在 yaml file 中,除了前面說到的資料表、欄位說明之外,還有另一項重要的任務,就是測試(文件)。 老實說,我們的測試還不算太完整,雖然拿了很多後端的概念...

2024-09-24 ‧ 由 阿晟 分享