dbt 近年來是許多數據團隊的熱門選擇,在資料轉換與資料治理的領域中提供很強大的框架去做更好的管理。
從導入 dbt 到現在歷經了一年多的時間,在開發的過程中,我們一路遵循著 dbt 的 best practice guide,但仍然遇到不少取捨或挑戰,因此希望透過這個系列的文章,梳理在整趟旅程中的各種甘苦談。
在這邊我會盡可能略過在文件中已經有仔細說明的環節(附上連結讓有興趣的人可以去研究),不再重複討論,而是專注在討論按照文件進行部署時,我們團隊在實戰時面臨的挑戰。
不同人有不同的 coding style,但為了保持整體專案的一致性,我們會建立一些原則,確保大家的程式碼有一定程度的共通性。 SQL 其實有蠻多流派,像是 B...
CI/CD 是一個穩健的資料系統中必備的要素。能確保系統穩定性與高效率的開發,雖然需要額外的心力來維護,但開發起來絕對比過去我們時常直接把東西丟上 produc...
接著我想來討論一下,在 CI/CD 流程中,我們在 CI 跟 CD 分別做了什麼不同的操作。 這邊主要可以用環境來區分,在 CI 時,也就是 PR 建立時,我們...
複習一下之前討論過的,均一目前的資料架構跟服務,在 dbt 與 BigQuery 的轉換、運算與儲存之後,下游有幾個不同情境的運用,其中最大宗的運用即是我們的視...
延續上一篇的主題,來討論兩個我們尚未納入運用的功能:analysis & exposure。 Analysis analyses: - name:...
延續前面討論幾項讓 dbt 與下游結合更緊密的功能,還有一個功能 —— Semantic Layer,定位是 data mart 的下游,負責讓團隊可以定義關鍵...
接著來講我們在 CI/CD 中做的最後一個操作 —— Deploy dbt docs to GitHub Pages。 dbt docs 的功能跟設定挺單純的,...
接著來討論這整段 pipeline 的費用監控。如果看了這整個系列的文章,應該會看到蠻多地方在討論費用的部分,為了省錢,雖然沒有到無所不用其極,但也是在開發上付...
在 BigQuery 的費用監控中,其實大部分都是運算費用居多,儲存費用是占比很小的。 不過我們還是有監控資料表的靜態資訊,看看容量大、又長時間沒有人更新的資料...
為什麼我們需要 dbt?我們真的需要它嗎? 今天又在 Medium 看到這篇 No, Data Engineers Don’t NEED dbt.,在談論到底需...