iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
Software Development

用 Airflow & Flink 來開發 ETL 吧 系列

Airflow 和 Flink 是兩個強大的工具,可以用於 ETL 開發。Airflow 是一個開源的任務調度和監控平台,可以方便地定義、調度和監控 ETL 任務的執行。Flink 是一個分佈式流處理引擎,可以處理大規模的數據流,並提供低延遲和高吞吐量的處理能力。

我想來聊聊這兩個框架在開發上遇過的坑,好用跟難用的點,跟我目前比較喜歡的程式架構。

鐵人鍊成 | 共 30 篇文章 | 8 人訂閱 訂閱系列文 RSS系列文 團隊今天截止日
DAY 11

Airflow 的單元測試 (一) - Day11

如果前面的鐵人賽每篇你都看過的話(希望你有),可能會發現我常常提到「測試」,或是說「為了測試」。測試是非常重要的,但這裡我就先不細談,有興趣的人歡迎看看我朋友...

2023-09-11 ‧ 由 kaihg1028 分享
DAY 12

Airflow 測試(二) - Day12

上一篇講了一些測試心得,這篇就來講個偏整合性的測試方法吧。 CMD 測試 這是官方提供的方法,用起來也很簡單: # command layout: comman...

2023-09-12 ‧ 由 kaihg1028 分享
DAY 13

Airflow 單元測試的注意事項 - Day13

測試講了三天,應該可以證明我至少表面上很注重測試對吧? 回來正題,在開發 Airflow 單元測試的時候,有幾件事需要注意的。 Variables Variab...

2023-09-13 ‧ 由 kaihg1028 分享
DAY 14

Airflow 測試遇到的package 的奇妙問題 - Day14

這篇來講一下在測試的時候遇到的問題,主要是 package 的 import issue 一般來說,我們開發的 dag 都會放在 project 下的 /dag...

2023-09-14 ‧ 由 kaihg1028 分享
DAY 15

Flink 介紹 - Day15

鐵人賽也過了一半了,今天來換主題,講 Flink。 Airflow 雖然好用,但它本質上是專注在排程管理的系統,可以的話,他希望你將複雜的計算交給更適合的工具,...

2023-09-15 ‧ 由 kaihg1028 分享
DAY 16

Flink 的本地安裝及啟動 - Day16

跟 Airflow 一樣,Flink 的運作架構是有為分散式處理設計過的,不過這裡就不深談,我們先以本地 (單機) 模式來運作吧。 本地 首先,請先確認你有安裝...

2023-09-16 ‧ 由 kaihg1028 分享
DAY 17

使用 Intellij 開發 Flink - Day17

開發 Java 不外乎都是使用 Eclipse 或是 IntelliJ,其他的都相對小眾。而 IntelliJ 又比 Eclipse 好用很多,所以我就只會用...

2023-09-17 ‧ 由 kaihg1028 分享
DAY 18

Flink 介面說明 - Day18

今天來講 Flink 提供的 Web UI 有哪些功能,首先先看一下它的首頁 左邊有: Overview: 就上圖,一個當前概覽,你可以看到 Slot 跟...

2023-09-18 ‧ 由 kaihg1028 分享
DAY 19

Flink Windows - Day19

Flink 是一個分散式的流式計算平台,它可以處理大量的實時數據。為了能夠對數據進行分析和聚合,Flink 提供了一個重要的抽象概念,就是窗格 (windows...

2023-09-19 ‧ 由 kaihg1028 分享
DAY 20

Flink key-by - Day20

前面講的 windows 窗格,通常在前面都會先加上一個 key-by。Key-by 的概念是指將一個資料流按照某個屬性或函數的值分割成多個子資料流,每個子資料...

2023-09-20 ‧ 由 kaihg1028 分享