iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
AI/ ML & Data

這跟文件說的不一樣!從 0 到 1 導入 dbt 的實戰甘苦談 系列

dbt 近年來是許多數據團隊的熱門選擇,在資料轉換與資料治理的領域中提供很強大的框架去做更好的管理。

從導入 dbt 到現在歷經了一年多的時間,在開發的過程中,我們一路遵循著 dbt 的 best practice guide,但仍然遇到不少取捨或挑戰,因此希望透過這個系列的文章,梳理在整趟旅程中的各種甘苦談。

在這邊我會盡可能略過在文件中已經有仔細說明的環節(附上連結讓有興趣的人可以去研究),不再重複討論,而是專注在討論按照文件進行部署時,我們團隊在實戰時面臨的挑戰。

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文 團隊資料工程師甘苦談
DAY 21

DAY 21 Pre-commit 跟文件說的不一樣!談如何透過 pre-commit 提升 SQL 品質

不同人有不同的 coding style,但為了保持整體專案的一致性,我們會建立一些原則,確保大家的程式碼有一定程度的共通性。 SQL 其實有蠻多流派,像是 B...

2024-10-05 ‧ 由 阿晟 分享
DAY 22

DAY 22 CI/CD 跟文件說的不一樣!用 state 去辨別異動的模型

CI/CD 是一個穩健的資料系統中必備的要素。能確保系統穩定性與高效率的開發,雖然需要額外的心力來維護,但開發起來絕對比過去我們時常直接把東西丟上 produc...

2024-10-06 ‧ 由 阿晟 分享
DAY 23

DAY 23 CI/CD 跟文件說的不一樣!每次都 full refresh 太貴怎麼辦?

接著我想來討論一下,在 CI/CD 流程中,我們在 CI 跟 CD 分別做了什麼不同的操作。 這邊主要可以用環境來區分,在 CI 時,也就是 PR 建立時,我們...

2024-10-07 ‧ 由 阿晟 分享
DAY 24

DAY 24 CI/CD 跟文件說的不一樣!如何保持 dbt 與下游服務的連貫性?

複習一下之前討論過的,均一目前的資料架構跟服務,在 dbt 與 BigQuery 的轉換、運算與儲存之後,下游有幾個不同情境的運用,其中最大宗的運用即是我們的視...

2024-10-08 ‧ 由 阿晟 分享
DAY 25

DAY 25 Analysis / Exposure 跟文件說的不一樣!提升下游資料品質的酷工具

延續上一篇的主題,來討論兩個我們尚未納入運用的功能:analysis & exposure。 Analysis analyses: - name:...

2024-10-09 ‧ 由 阿晟 分享
DAY 26

DAY 26 Semantic Layer 跟文件說的不一樣!為何我們不用 Semantic Layer

延續前面討論幾項讓 dbt 與下游結合更緊密的功能,還有一個功能 —— Semantic Layer,定位是 data mart 的下游,負責讓團隊可以定義關鍵...

2024-10-10 ‧ 由 阿晟 分享
DAY 27

DAY 27 Docs 跟文件說的不一樣!透過文件透明化實現資料自治

接著來講我們在 CI/CD 中做的最後一個操作 —— Deploy dbt docs to GitHub Pages。 dbt docs 的功能跟設定挺單純的,...

2024-10-11 ‧ 由 阿晟 分享
DAY 28

DAY 28 成本監控跟文件說的不一樣!成本的監控機制-Storage 篇

接著來討論這整段 pipeline 的費用監控。如果看了這整個系列的文章,應該會看到蠻多地方在討論費用的部分,為了省錢,雖然沒有到無所不用其極,但也是在開發上付...

2024-10-12 ‧ 由 阿晟 分享
DAY 29

DAY 29 成本監控跟文件說的不一樣!成本的監控機制-BigQuery 篇

在 BigQuery 的費用監控中,其實大部分都是運算費用居多,儲存費用是占比很小的。 不過我們還是有監控資料表的靜態資訊,看看容量大、又長時間沒有人更新的資料...

2024-10-13 ‧ 由 阿晟 分享
DAY 30

DAY 30 Dbt 跟文件說的不一樣!你真的需要 dbt 嗎?

為什麼我們需要 dbt?我們真的需要它嗎? 今天又在 Medium 看到這篇 No, Data Engineers Don’t NEED dbt.,在談論到底需...

2024-10-14 ‧ 由 阿晟 分享