Airflow 和 Flink 是兩個強大的工具,可以用於 ETL 開發。Airflow 是一個開源的任務調度和監控平台,可以方便地定義、調度和監控 ETL 任務的執行。Flink 是一個分佈式流處理引擎,可以處理大規模的數據流,並提供低延遲和高吞吐量的處理能力。
我想來聊聊這兩個框架在開發上遇過的坑,好用跟難用的點,跟我目前比較喜歡的程式架構。
如果前面的鐵人賽每篇你都看過的話(希望你有),可能會發現我常常提到「測試」,或是說「為了測試」。測試是非常重要的,但這裡我就先不細談,有興趣的人歡迎看看我朋友...
上一篇講了一些測試心得,這篇就來講個偏整合性的測試方法吧。 CMD 測試 這是官方提供的方法,用起來也很簡單: # command layout: comman...
測試講了三天,應該可以證明我至少表面上很注重測試對吧? 回來正題,在開發 Airflow 單元測試的時候,有幾件事需要注意的。 Variables Variab...
這篇來講一下在測試的時候遇到的問題,主要是 package 的 import issue 一般來說,我們開發的 dag 都會放在 project 下的 /dag...
鐵人賽也過了一半了,今天來換主題,講 Flink。 Airflow 雖然好用,但它本質上是專注在排程管理的系統,可以的話,他希望你將複雜的計算交給更適合的工具,...
跟 Airflow 一樣,Flink 的運作架構是有為分散式處理設計過的,不過這裡就不深談,我們先以本地 (單機) 模式來運作吧。 本地 首先,請先確認你有安裝...
開發 Java 不外乎都是使用 Eclipse 或是 IntelliJ,其他的都相對小眾。而 IntelliJ 又比 Eclipse 好用很多,所以我就只會用...
今天來講 Flink 提供的 Web UI 有哪些功能,首先先看一下它的首頁 左邊有: Overview: 就上圖,一個當前概覽,你可以看到 Slot 跟...
Flink 是一個分散式的流式計算平台,它可以處理大量的實時數據。為了能夠對數據進行分析和聚合,Flink 提供了一個重要的抽象概念,就是窗格 (windows...
前面講的 windows 窗格,通常在前面都會先加上一個 key-by。Key-by 的概念是指將一個資料流按照某個屬性或函數的值分割成多個子資料流,每個子資料...