iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
Software Development

用 Airflow & Flink 來開發 ETL 吧 系列

Airflow 和 Flink 是兩個強大的工具,可以用於 ETL 開發。Airflow 是一個開源的任務調度和監控平台,可以方便地定義、調度和監控 ETL 任務的執行。Flink 是一個分佈式流處理引擎,可以處理大規模的數據流,並提供低延遲和高吞吐量的處理能力。

我想來聊聊這兩個框架在開發上遇過的坑,好用跟難用的點,跟我目前比較喜歡的程式架構。

鐵人鍊成 | 共 30 篇文章 | 8 人訂閱 訂閱系列文 RSS系列文 團隊今天截止日
DAY 1

什麼是 ETL,為什麼要做 ETL - Day1

身為一名數據工程師,每天寫 code 做的事情簡單來說,都是 ETL。 Extract、Transform、Load(ETL)是一個常用於資料庫管理和商業智能領...

2023-09-01 ‧ 由 kaihg1028 分享
DAY 2

Airflow 的安裝及啟動 - Day2

主題 Airflow 是一個強大且靈活的工作流程管理工具,它可以幫助我們有效地調度和監控數據流程。為了使用 Airflow,我們需要在我們的系統上進行安裝和啟動...

2023-09-02 ‧ 由 kaihg1028 分享
DAY 3

Airflow DAG 是啥? - Day3

Airflow DAG 是啥? DAG 定義 Airflow 的核心之一,一定是 DAG (Directed Acyclic Graph,有向無環圖)。如果說其...

2023-09-03 ‧ 由 kaihg1028 分享
DAY 4

來寫第一個 DAG 吧 - Day4

Airflow 來寫第一個 DAG 吧 第一個例子 現在,我們來看一個簡單但真實的Airflow DAG 例子,並介紹其中一些常見的運算符(task)。 fro...

2023-09-04 ‧ 由 kaihg1028 分享
DAY 5

Airflow PythonOperator (一) - Day5

在上一篇文章裡有提到 PythonOperator 可能是 Airflow 裡最重要的 operator 之一,那當然要花點時間來說明一下使用方法,不過其實很簡...

2023-09-05 ‧ 由 kaihg1028 分享
DAY 6

Airflow PythonOperator(二) - Day6

Airflow PythonOperator(二) Param 今天延續上週說的 PythonOperator 的一些使用方法,除了 Variable 之外,A...

2023-09-06 ‧ 由 kaihg1028 分享
DAY 7

Airflow Variable 設定 - Day7

接下來,說說 Variable 的一些用法,先從簡單的開始 Web UI 在 web 介面裡有一個地方可以設定,如圖所示 Admin → Variables...

2023-09-07 ‧ 由 kaihg1028 分享
DAY 8

Airflow Connection 設定跟使用 - Day8

ETL 大概有八成的時間,都是在跟各種儲存系統互動。不管是常見的資料庫、BigQuery,或是 Redis, Hadoop,這些本質上都是儲存系統,差別只是連接...

2023-09-08 ‧ 由 kaihg1028 分享
DAY 9

Airflow 自訂 Operator - Day9

儘管Airflow提供了許多內置的運算符(Operators),但有時候我們需要根據特定需求開發自己的自定義運算符。這篇文章將介紹如何在Airflow中開發自定...

2023-09-09 ‧ 由 kaihg1028 分享
DAY 10

Airflow TaskFlow 改寫 DAG - Day10

今天這段其實不是開發 Airflow 必要的部份,甚至會多增加一點麻煩。但我個人還是比較喜歡這種寫法,所以來寫一些。 前面有提到 PythonOperator...

2023-09-10 ‧ 由 kaihg1028 分享