iT邦幫忙

鐵人檔案

2024 iThome 鐵人賽
回列表
AI/ ML & Data

資料與程式碼的交鋒 - Data Engineer 與合作夥伴的協奏曲 系列

這個題目會從我擔任 Data Engineer 的經驗出發,從過去與各種合作夥伴 (Backend Engineer, Data Analyst, Data Scientist 等) 協作過程中的挑戰出發,並從資料庫設計、軟體工程、基礎建設及資料運用等面向切入,說明不同職能間可能會有的知識落差。

期望透過本系列文章的說明,讓不同領域的人都對 Data 有更全面的理解,進而克服跨職能合作間可能會有的挑戰。

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文 團隊資料工程師甘苦談
DAY 11

《資料與程式碼的交鋒》Day 11 -工作流程編排工具 Airflow

延續昨天的話題,我想要每天午夜完成一次從 Google Maps API 取得資料 ⮕ 計算各地點的評分 ⮕ 將結果寫入 CSV 這樣的動作,可以透過 Cro...

2024-09-25 ‧ 由 shutingchien 分享
DAY 12

《資料與程式碼的交鋒》Day 12-任務相依性設計

『如果工作流程很複雜,任務的相依性很高,Airflow 還是能實現嗎?』 圖/一個 DAG 完成 RFM 分析。簡書廷製。 我們以 Day 06 提到的...

2024-09-26 ‧ 由 shutingchien 分享
DAY 13

《資料與程式碼的交鋒》Day 13 -可重現性

『如果可以,我想和你回到那天相遇』(韋禮安,2021) 「與當時查出來的資料面貌再次相遇」在資料的世界,可能嗎?這和軟體工程,又有什麼牽連? 為什麼需要重...

2024-09-27 ‧ 由 shutingchien 分享
DAY 14

《資料與程式碼的交鋒》Day 14-開發環境

試著想像一下,也許就像 Day 10 一樣做 Google API 的 資料收集 ⮕ 資料轉換 ⮕ 資料匯入,透過 Python + SQL 的程式碼,搭配...

2024-09-28 ‧ 由 shutingchien 分享
DAY 15

《資料與程式碼的交鋒》Day 15-用 Docker 運行 Airflow

我們延續 Day 14 提到的例子:從 Google Maps API 獲取資料,清理轉換後寫入 BigQuery 裡。資料處理的過程中需要運用以下套件:...

2024-09-29 ‧ 由 shutingchien 分享
DAY 16

《資料與程式碼的交鋒》Day 16 - 軟體工程篇總回顧

30 天挑戰就這樣默默過了一半呢!在第二階段,我們把資料工程中重要的排程設計,透過軟體工程的角度切入探討。 在過去的六篇文章中,我們探討了如何將程式碼模組化、工...

2024-09-30 ‧ 由 shutingchien 分享
DAY 17

《資料與程式碼的交鋒》Day 17 - 資料處理架構的抉擇

進入系列文的下半場,我們重新思考一次:是否所有資料的加工運用,都無法滿足「即時性」的需求? Batch v.s. Stream 我們在 Day 11 介紹 A...

2024-10-01 ‧ 由 shutingchien 分享
DAY 18

《資料與程式碼的交鋒》Day 18 - 變更資料擷取 (CDC)

我們從 Day 08 知道若從資料源的 OLTP 擷取資料變化送往資料倉儲這個 OLAP 系統進行加值運用,可能有全量、增量、SCD 等方式。再藉由 Day...

2024-10-02 ‧ 由 shutingchien 分享
DAY 19

《資料與程式碼的交鋒》Day 19 - 資料異動即時串接

「資料變化要能即時反映出來,並透過事件的形式進行串接。」基於這樣的概念,我們需要在異動資料抵達系統時,在毫秒或秒級就處理完成。今天就逐步拆解概念,一一掌握技術...

2024-10-03 ‧ 由 shutingchien 分享
DAY 20

《資料與程式碼的交鋒》Day 20 - 分散式處理引擎 Flink

昨天我們透過 Debezium + Kafka Connect 的搭配,我們把分別來自 Postgres 和 Mongo 的訂單 orders 和 顧客 use...

2024-10-04 ‧ 由 shutingchien 分享