iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

從 Airflow 走到 dbt 的 30 天 系列

Apache Airflow 在台灣應該是非常常見的 orchestration tool 啦!在今年,我們公司開始導入 dbt 作為 data warehouse & data mart 的管理工具。花了很多時間,也發現中文的資源比較少。來玩玩看吧!將這幾個月的心得濃縮起來,30 天挑戰介紹看看!

參賽天數 9 天 | 共 9 篇文章 | 5 人訂閱 訂閱系列文 RSS系列文 團隊dbt 和 dbt 以外有趣的事
DAY 1

Day 1: An Introduction to ETL / ELT

前言 Who am I? 我是 Alvin,目前在一間 EdTech 公司擔任資料工程師。 Why am I writing? 在 2023 年初,我們開始決定...

2023-09-16 ‧ 由 chorsengs 分享
DAY 2

Day 2: Using Apache Airflow to schedule BigQuery (stored-procedure)

在導入 dbt 之前的世界 2022 年,當時的公司主要透過: Google BigQuery 儲存 SQL-based 的 stored-procedure...

2023-09-17 ‧ 由 chorsengs 分享
DAY 3

Day 3: An Introduction to CTE

如何管理 SQL-based pipeline? 整理完當初我們遇到的問題,要開始來談談 dbt 怎麼解決問題了。不過,實際進入到工具之前,我們先從 code...

2023-09-18 ‧ 由 chorsengs 分享
DAY 4

Day 4: LEGO, a metaphor of views managed by dbt

用積木來類比 .sql files 的管理思路 書接上文,我們談論到在單一的 .sql file 內,良好的 CTE naming convention,對於...

2023-09-19 ‧ 由 chorsengs 分享
DAY 5

Day 5: How dbt models actually works?

分析 dbt model 的核心價值 承接上文,從上圖可以發現:dbt 的本質: 架構模組化:透過大量的 view (stage、intermediate)...

2023-09-20 ‧ 由 chorsengs 分享
DAY 6

Day 6: How dbt models actually works? (2/2)

Data Mart(materialized table): (我們會花相當多的時間來談論這件事) 定義:只處理簡單的 join,並按照商業單位(busine...

2023-09-21 ‧ 由 chorsengs 分享
DAY 7

Day 7: Very Unique MODEL, Semantic Layer

昨天,我們花了許多時間,說明 dbt 的 model 大致的架構,是如何將 sql code 梳理成乾淨的資料流,並透過視覺化的方式,盡量讓工程師們可以最快、最...

2023-09-22 ‧ 由 chorsengs 分享
DAY 8

Day 8: Very Unique MODEL, Semantic Layer (2/n)

昨天說完操作,今天來說說具體效益。 語意層(semantic layer)的具體功能 首先,讓我們一樣回到阿華炒麵店的例子。負責行銷的小美,負責採購的阿勝,負...

2023-09-23 ‧ 由 chorsengs 分享
DAY 9

Day 9: 一些碎碎念的插播

今天狀況較差,我先從 dbt 抽離出來,談一些對資料工程、資料分析的敘述; data 作為一種資產(data as an asset),我覺得慢慢開始脫離成本單...

2023-09-24 ‧ 由 chorsengs 分享