iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

1 Like 0 留言 802 瀏覽

鐵人賽 AI/ ML & Data DAY 21

資料與程式碼的交鋒 - Data Engineer 與合作夥伴的協奏曲系列第 21 篇

技術《資料與程式碼的交鋒》Day 21 - 即時性的迷思

Day 20 我們說明了分散式運算引擎對即時進行資料應用的優勢之處。以 RFM 分析而言，我們把資料源的變化捕捉到 Kafka 之後，就可以接上 Flink 作...

Shu-Ting | 資料科學漂流者 ‧ 2024-10-05 ‧團隊資料工程師甘苦談

1 Like 0 留言 976 瀏覽

鐵人賽 AI/ ML & Data DAY 20

資料與程式碼的交鋒 - Data Engineer 與合作夥伴的協奏曲系列第 20 篇

技術《資料與程式碼的交鋒》Day 20 - 分散式處理引擎 Flink

昨天我們透過 Debezium + Kafka Connect 的搭配，我們把分別來自 Postgres 和 Mongo 的訂單 orders 和顧客 use...

Shu-Ting | 資料科學漂流者 ‧ 2024-10-04 ‧團隊資料工程師甘苦談

0 Like 0 留言 1068 瀏覽

鐵人賽 AI & Data DAY 29

30天認識主流大數據框架：Hadoop + Spark + Flink 系列第 29 篇

技術 Day29 - PyFlink (5)：實時熱度分析

程式碼這次參賽的程式碼都會放在 Big-Data-Framework-30-days，建議大家直接把整個 repo clone 下來，然後參考 README...

RiceBugJ ‧ 2023-10-14

1 Like 0 留言 1093 瀏覽

鐵人賽 Software Development DAY 30

用 Airflow & Flink 來開發 ETL 吧系列第 30 篇

技術利用 Github Action 來做 CI 吧 - Day30

終於來到最後一篇了，我們前面寫了這麼多程式跟測試，那要什麼時候執行測試？理論上，你隨時都應該做。特別是 merge branch 回 develop 的時候。...

KK ‧ 2023-09-30 ‧團隊今天截止日

0 Like 0 留言 1280 瀏覽

鐵人賽 Software Development DAY 28

用 Airflow & Flink 來開發 ETL 吧系列第 28 篇

技術讓 Airflow 呼叫 Flink - Day28

我們前面講了 Airflow 跟 Flink 的一些基礎觀念跟開發，現在讓我們整理一下兩邊的差異。首先，Airflow 是一個優秀的排程管理工具，它有自己的...

KK ‧ 2023-09-28 ‧團隊今天截止日

0 Like 0 留言 812 瀏覽

鐵人賽 Software Development DAY 26

用 Airflow & Flink 來開發 ETL 吧系列第 26 篇

技術 Flink Service 與 jar 的關係 - Day26

前面有提到，通常我們會在 IDE 開發 Flink，都 2023 年了應該沒人在用記事本寫 Java 了吧？至少也用個 vim。 Flink 一般來說，會有一個...

KK ‧ 2023-09-26 ‧團隊今天截止日

0 Like 0 留言 550 瀏覽

鐵人賽 Software Development DAY 25

用 Airflow & Flink 來開發 ETL 吧系列第 25 篇

技術 Flink 的單元測試 20 - Day25

跟 Airflow 一樣，這種框架都不太好測，而 Flink 的流式處理以及他的複雜機制更是如此。不過，我們還是可以從一些簡單的部份做起。 Source /...

KK ‧ 2023-09-25 ‧團隊今天截止日

0 Like 0 留言 667 瀏覽

鐵人賽 Software Development DAY 24

用 Airflow & Flink 來開發 ETL 吧系列第 24 篇

技術 Flink 也能寫 Batch - Day24

雖然我說 Flink 的強項跟目的是處理 Streaming 的資料，但不代表它不能做 batch。最經典的例子，依然還是讀檔後計算字數。 public cla...

KK ‧ 2023-09-24 ‧團隊今天截止日

0 Like 0 留言 897 瀏覽

鐵人賽 Software Development DAY 23

用 Airflow & Flink 來開發 ETL 吧系列第 23 篇

技術 Flink Streaming 與 JDBC - Day23

我們在上一章的時候，Flink 的輸入 source 是使用 Kafka，它很好用，但我們常常面對的卻是各種 OLTP 資料庫。而如果你打開 Flink 官網，...

KK ‧ 2023-09-23 ‧團隊今天截止日

0 Like 0 留言 1019 瀏覽

鐵人賽 Software Development DAY 22

用 Airflow & Flink 來開發 ETL 吧系列第 22 篇

技術來寫一個 Flink Streaming Job 吧 - Day22

前面講了一些基本概念，我們來看一個比較完整的案例吧講到 Streaming，有一個很好用的工具叫 Kafka，應該也是大多數工程師或公司會用的工具。所以我們來...

KK ‧ 2023-09-22 ‧團隊今天截止日

0 Like 0 留言 638 瀏覽

鐵人賽 Software Development DAY 21

用 Airflow & Flink 來開發 ETL 吧系列第 21 篇

技術 Flink 存檔跟還原機制 - Day21

Flink 的一個重要特性是狀態保存和還原機制，它可以讓 Flink 應用在發生故障時，能夠自動恢復到之前的狀態，而不會丟失或重複處理數據。 Flink 的狀態...

KK ‧ 2023-09-21 ‧團隊今天截止日

0 Like 0 留言 593 瀏覽

鐵人賽 Software Development DAY 20

用 Airflow & Flink 來開發 ETL 吧系列第 20 篇

技術 Flink key-by - Day20

前面講的 windows 窗格，通常在前面都會先加上一個 key-by。Key-by 的概念是指將一個資料流按照某個屬性或函數的值分割成多個子資料流，每個子資料...

KK ‧ 2023-09-20 ‧團隊今天截止日

1 Like 0 留言 722 瀏覽

鐵人賽 Software Development DAY 19

用 Airflow & Flink 來開發 ETL 吧系列第 19 篇

技術 Flink Windows - Day19

Flink 是一個分散式的流式計算平台，它可以處理大量的實時數據。為了能夠對數據進行分析和聚合，Flink 提供了一個重要的抽象概念，就是窗格 (windows...

KK ‧ 2023-09-19 ‧團隊今天截止日

0 Like 0 留言 1049 瀏覽

鐵人賽 Software Development DAY 18

用 Airflow & Flink 來開發 ETL 吧系列第 18 篇

技術 Flink 介面說明 - Day18

今天來講 Flink 提供的 Web UI 有哪些功能，首先先看一下它的首頁左邊有： Overview: 就上圖，一個當前概覽，你可以看到 Slot 跟...

KK ‧ 2023-09-18 ‧團隊今天截止日

1 Like 0 留言 927 瀏覽

鐵人賽 Software Development DAY 17

用 Airflow & Flink 來開發 ETL 吧系列第 17 篇

技術使用 Intellij 開發 Flink - Day17

開發 Java 不外乎都是使用 Eclipse 或是 IntelliJ，其他的都相對小眾。而 IntelliJ 又比 Eclipse 好用很多，所以我就只會用...

KK ‧ 2023-09-17 ‧團隊今天截止日

0 Like 0 留言 670 瀏覽

鐵人賽 Software Development DAY 16

用 Airflow & Flink 來開發 ETL 吧系列第 16 篇

技術 Flink 的本地安裝及啟動 - Day16

跟 Airflow 一樣，Flink 的運作架構是有為分散式處理設計過的，不過這裡就不深談，我們先以本地 (單機) 模式來運作吧。本地首先，請先確認你有安裝...

KK ‧ 2023-09-16 ‧團隊今天截止日

0 Like 0 留言 3521 瀏覽

鐵人賽 AI & Data DAY 1

30天認識主流大數據框架：Hadoop + Spark + Flink 系列第 1 篇

技術 Day01 - 這裡數據好多，我好害怕

參賽動機還記得本人高中的時候大數據這個詞很夯，那個時候根本不清楚大數據是什麼，只覺得把一大堆數據蒐集起來就叫做大數據吧，具體能拿來幹嘛其實也不太清楚；隨著A...

RiceBugJ ‧ 2023-09-16

0 Like 0 留言 1039 瀏覽

鐵人賽 Software Development DAY 15

用 Airflow & Flink 來開發 ETL 吧系列第 15 篇

技術 Flink 介紹 - Day15

鐵人賽也過了一半了，今天來換主題，講 Flink。 Airflow 雖然好用，但它本質上是專注在排程管理的系統，可以的話，他希望你將複雜的計算交給更適合的工具，...

KK ‧ 2023-09-15 ‧團隊今天截止日

2 Like 0 留言 6109 瀏覽

鐵人賽 Software Development DAY 1

用 Airflow & Flink 來開發 ETL 吧系列第 1 篇

技術什麼是 ETL，為什麼要做 ETL - Day1

身為一名數據工程師，每天寫 code 做的事情簡單來說，都是 ETL。 Extract、Transform、Load（ETL）是一個常用於資料庫管理和商業智能領...

KK ‧ 2023-09-01 ‧團隊今天截止日

技術 《資料與程式碼的交鋒》Day 21 - 即時性的迷思

技術 《資料與程式碼的交鋒》Day 20 - 分散式處理引擎 Flink