Day 20 我們說明了分散式運算引擎對即時進行資料應用的優勢之處。以 RFM 分析而言,我們把資料源的變化捕捉到 Kafka 之後,就可以接上 Flink 作...
昨天我們透過 Debezium + Kafka Connect 的搭配,我們把分別來自 Postgres 和 Mongo 的訂單 orders 和 顧客 use...
程式碼這次參賽的程式碼都會放在 Big-Data-Framework-30-days,建議大家直接把整個 repo clone 下來,然後參考 README...
終於來到最後一篇了,我們前面寫了這麼多程式跟測試,那要什麼時候執行測試? 理論上,你隨時都應該做。特別是 merge branch 回 develop 的時候。...
我們前面講了 Airflow 跟 Flink 的一些基礎觀念跟開發,現在讓我們整理一下兩邊的差異。 首先,Airflow 是一個優秀的排程管理工具,它有自己的...
前面有提到,通常我們會在 IDE 開發 Flink,都 2023 年了應該沒人在用記事本寫 Java 了吧?至少也用個 vim。 Flink 一般來說,會有一個...
跟 Airflow 一樣,這種框架都不太好測,而 Flink 的流式處理以及他的複雜機制更是如此。 不過,我們還是可以從一些簡單的部份做起。 Source /...
雖然我說 Flink 的強項跟目的是處理 Streaming 的資料,但不代表它不能做 batch。最經典的例子,依然還是讀檔後計算字數。 public cla...
我們在上一章的時候,Flink 的輸入 source 是使用 Kafka,它很好用,但我們常常面對的卻是各種 OLTP 資料庫。而如果你打開 Flink 官網,...
前面講了一些基本概念,我們來看一個比較完整的案例吧 講到 Streaming,有一個很好用的工具叫 Kafka,應該也是大多數工程師或公司會用的工具。所以我們來...
Flink 的一個重要特性是狀態保存和還原機制,它可以讓 Flink 應用在發生故障時,能夠自動恢復到之前的狀態,而不會丟失或重複處理數據。 Flink 的狀態...
前面講的 windows 窗格,通常在前面都會先加上一個 key-by。Key-by 的概念是指將一個資料流按照某個屬性或函數的值分割成多個子資料流,每個子資料...
Flink 是一個分散式的流式計算平台,它可以處理大量的實時數據。為了能夠對數據進行分析和聚合,Flink 提供了一個重要的抽象概念,就是窗格 (windows...
今天來講 Flink 提供的 Web UI 有哪些功能,首先先看一下它的首頁 左邊有: Overview: 就上圖,一個當前概覽,你可以看到 Slot 跟...
開發 Java 不外乎都是使用 Eclipse 或是 IntelliJ,其他的都相對小眾。而 IntelliJ 又比 Eclipse 好用很多,所以我就只會用...
跟 Airflow 一樣,Flink 的運作架構是有為分散式處理設計過的,不過這裡就不深談,我們先以本地 (單機) 模式來運作吧。 本地 首先,請先確認你有安裝...
參賽動機 還記得本人高中的時候大數據這個詞很夯,那個時候根本不清楚大數據是什麼,只覺得把一大堆數據蒐集起來就叫做大數據吧,具體能拿來幹嘛其實也不太清楚;隨著A...
鐵人賽也過了一半了,今天來換主題,講 Flink。 Airflow 雖然好用,但它本質上是專注在排程管理的系統,可以的話,他希望你將複雜的計算交給更適合的工具,...
身為一名數據工程師,每天寫 code 做的事情簡單來說,都是 ETL。 Extract、Transform、Load(ETL)是一個常用於資料庫管理和商業智能領...