iT邦幫忙

flink相關文章
共有 19 則文章
鐵人賽 Software Development DAY 1

技術 什麼是 ETL,為什麼要做 ETL - Day1

身為一名數據工程師,每天寫 code 做的事情簡單來說,都是 ETL。 Extract、Transform、Load(ETL)是一個常用於資料庫管理和商業智能領...

鐵人賽 AI & Data DAY 1

技術 Day01 - 這裡數據好多,我好害怕

參賽動機 還記得本人高中的時候大數據這個詞很夯,那個時候根本不清楚大數據是什麼,只覺得把一大堆數據蒐集起來就叫做大數據吧,具體能拿來幹嘛其實也不太清楚;隨著A...

鐵人賽 Software Development DAY 28

技術 讓 Airflow 呼叫 Flink - Day28

我們前面講了 Airflow 跟 Flink 的一些基礎觀念跟開發,現在讓我們整理一下兩邊的差異。 首先,Airflow 是一個優秀的排程管理工具,它有自己的...

鐵人賽 Software Development DAY 15

技術 Flink 介紹 - Day15

鐵人賽也過了一半了,今天來換主題,講 Flink。 Airflow 雖然好用,但它本質上是專注在排程管理的系統,可以的話,他希望你將複雜的計算交給更適合的工具,...

鐵人賽 AI & Data DAY 29

技術 Day29 - PyFlink (5):實時熱度分析

程式碼這次參賽的程式碼都會放在 Big-Data-Framework-30-days,建議大家直接把整個 repo clone 下來,然後參考 README...

鐵人賽 Software Development DAY 17

技術 使用 Intellij 開發 Flink - Day17

開發 Java 不外乎都是使用 Eclipse 或是 IntelliJ,其他的都相對小眾。而 IntelliJ 又比 Eclipse 好用很多,所以我就只會用...

鐵人賽 Software Development DAY 22

技術 來寫一個 Flink Streaming Job 吧 - Day22

前面講了一些基本概念,我們來看一個比較完整的案例吧 講到 Streaming,有一個很好用的工具叫 Kafka,應該也是大多數工程師或公司會用的工具。所以我們來...

鐵人賽 Software Development DAY 18

技術 Flink 介面說明 - Day18

今天來講 Flink 提供的 Web UI 有哪些功能,首先先看一下它的首頁 左邊有: Overview: 就上圖,一個當前概覽,你可以看到 Slot 跟...

鐵人賽 Software Development DAY 19

技術 Flink Windows - Day19

Flink 是一個分散式的流式計算平台,它可以處理大量的實時數據。為了能夠對數據進行分析和聚合,Flink 提供了一個重要的抽象概念,就是窗格 (windows...

鐵人賽 Software Development DAY 30

技術 利用 Github Action 來做 CI 吧 - Day30

終於來到最後一篇了,我們前面寫了這麼多程式跟測試,那要什麼時候執行測試? 理論上,你隨時都應該做。特別是 merge branch 回 develop 的時候。...

鐵人賽 Software Development DAY 16

技術 Flink 的本地安裝及啟動 - Day16

跟 Airflow 一樣,Flink 的運作架構是有為分散式處理設計過的,不過這裡就不深談,我們先以本地 (單機) 模式來運作吧。 本地 首先,請先確認你有安裝...

鐵人賽 Software Development DAY 26

技術 Flink Service 與 jar 的關係 - Day26

前面有提到,通常我們會在 IDE 開發 Flink,都 2023 年了應該沒人在用記事本寫 Java 了吧?至少也用個 vim。 Flink 一般來說,會有一個...

鐵人賽 Software Development DAY 24

技術 Flink 也能寫 Batch - Day24

雖然我說 Flink 的強項跟目的是處理 Streaming 的資料,但不代表它不能做 batch。最經典的例子,依然還是讀檔後計算字數。 public cla...

鐵人賽 Software Development DAY 23

技術 Flink Streaming 與 JDBC - Day23

我們在上一章的時候,Flink 的輸入 source 是使用 Kafka,它很好用,但我們常常面對的卻是各種 OLTP 資料庫。而如果你打開 Flink 官網,...

鐵人賽 AI/ ML & Data DAY 20

技術 《資料與程式碼的交鋒》Day 20 - 分散式處理引擎 Flink

昨天我們透過 Debezium + Kafka Connect 的搭配,我們把分別來自 Postgres 和 Mongo 的訂單 orders 和 顧客 use...

鐵人賽 Software Development DAY 21

技術 Flink 存檔跟還原機制 - Day21

Flink 的一個重要特性是狀態保存和還原機制,它可以讓 Flink 應用在發生故障時,能夠自動恢復到之前的狀態,而不會丟失或重複處理數據。 Flink 的狀態...

鐵人賽 Software Development DAY 20

技術 Flink key-by - Day20

前面講的 windows 窗格,通常在前面都會先加上一個 key-by。Key-by 的概念是指將一個資料流按照某個屬性或函數的值分割成多個子資料流,每個子資料...

鐵人賽 Software Development DAY 25

技術 Flink 的單元測試 20 - Day25

跟 Airflow 一樣,這種框架都不太好測,而 Flink 的流式處理以及他的複雜機制更是如此。 不過,我們還是可以從一些簡單的部份做起。 Source /...

鐵人賽 AI/ ML & Data DAY 21

技術 《資料與程式碼的交鋒》Day 21 - 即時性的迷思

Day 20 我們說明了分散式運算引擎對即時進行資料應用的優勢之處。以 RFM 分析而言,我們把資料源的變化捕捉到 Kafka 之後,就可以接上 Flink 作...