Airflow 和 Flink 是兩個強大的工具,可以用於 ETL 開發。Airflow 是一個開源的任務調度和監控平台,可以方便地定義、調度和監控 ETL 任務的執行。Flink 是一個分佈式流處理引擎,可以處理大規模的數據流,並提供低延遲和高吞吐量的處理能力。
我想來聊聊這兩個框架在開發上遇過的坑,好用跟難用的點,跟我目前比較喜歡的程式架構。
身為一名數據工程師,每天寫 code 做的事情簡單來說,都是 ETL。 Extract、Transform、Load(ETL)是一個常用於資料庫管理和商業智能領...
主題 Airflow 是一個強大且靈活的工作流程管理工具,它可以幫助我們有效地調度和監控數據流程。為了使用 Airflow,我們需要在我們的系統上進行安裝和啟動...
Airflow DAG 是啥? DAG 定義 Airflow 的核心之一,一定是 DAG (Directed Acyclic Graph,有向無環圖)。如果說其...
Airflow 來寫第一個 DAG 吧 第一個例子 現在,我們來看一個簡單但真實的Airflow DAG 例子,並介紹其中一些常見的運算符(task)。 fro...
在上一篇文章裡有提到 PythonOperator 可能是 Airflow 裡最重要的 operator 之一,那當然要花點時間來說明一下使用方法,不過其實很簡...
Airflow PythonOperator(二) Param 今天延續上週說的 PythonOperator 的一些使用方法,除了 Variable 之外,A...
接下來,說說 Variable 的一些用法,先從簡單的開始 Web UI 在 web 介面裡有一個地方可以設定,如圖所示 Admin → Variables...
ETL 大概有八成的時間,都是在跟各種儲存系統互動。不管是常見的資料庫、BigQuery,或是 Redis, Hadoop,這些本質上都是儲存系統,差別只是連接...
儘管Airflow提供了許多內置的運算符(Operators),但有時候我們需要根據特定需求開發自己的自定義運算符。這篇文章將介紹如何在Airflow中開發自定...
今天這段其實不是開發 Airflow 必要的部份,甚至會多增加一點麻煩。但我個人還是比較喜歡這種寫法,所以來寫一些。 前面有提到 PythonOperator...