第十六屆 佳作

ai-ml-data
資料與程式碼的交鋒 - Data Engineer 與合作夥伴的協奏曲
Shu-Ting | 資料科學漂流者

系列文章

DAY 11

《資料與程式碼的交鋒》Day 11 -工作流程編排工具 Airflow

延續昨天的話題,我想要每天午夜完成一次從 Google Maps API 取得資料 ⮕ 計算各地點的評分 ⮕ 將結果寫入 CSV 這樣的動作,可以透過 Cro...

DAY 12

《資料與程式碼的交鋒》Day 12-任務相依性設計

『如果工作流程很複雜,任務的相依性很高,Airflow 還是能實現嗎?』 圖/一個 DAG 完成 RFM 分析。簡書廷製。 我們以 Day 06 提到的...

DAY 13

《資料與程式碼的交鋒》Day 13 -可重現性

『如果可以,我想和你回到那天相遇』(韋禮安,2021) 「與當時查出來的資料面貌再次相遇」在資料的世界,可能嗎?這和軟體工程,又有什麼牽連? 為什麼需要重...

DAY 14

《資料與程式碼的交鋒》Day 14-開發環境

試著想像一下,也許就像 Day 10 一樣做 Google API 的 資料收集 ⮕ 資料轉換 ⮕ 資料匯入,透過 Python + SQL 的程式碼,搭配...

DAY 15

《資料與程式碼的交鋒》Day 15-用 Docker 運行 Airflow

我們延續 Day 14 提到的例子:從 Google Maps API 獲取資料,清理轉換後寫入 BigQuery 裡。資料處理的過程中需要運用以下套件:...

DAY 16

《資料與程式碼的交鋒》Day 16 - 軟體工程篇總回顧

30 天挑戰就這樣默默過了一半呢!在第二階段,我們把資料工程中重要的排程設計,透過軟體工程的角度切入探討。 在過去的六篇文章中,我們探討了如何將程式碼模組化、工...

DAY 17

《資料與程式碼的交鋒》Day 17 - 資料處理架構的抉擇

進入系列文的下半場,我們重新思考一次:是否所有資料的加工運用,都無法滿足「即時性」的需求? Batch v.s. Stream 我們在 Day 11 介紹 A...

DAY 18

《資料與程式碼的交鋒》Day 18 - 變更資料擷取 (CDC)

我們從 Day 08 知道若從資料源的 OLTP 擷取資料變化送往資料倉儲這個 OLAP 系統進行加值運用,可能有全量、增量、SCD 等方式。再藉由 Day...

DAY 19

《資料與程式碼的交鋒》Day 19 - 資料異動即時串接

「資料變化要能即時反映出來,並透過事件的形式進行串接。」基於這樣的概念,我們需要在異動資料抵達系統時,在毫秒或秒級就處理完成。今天就逐步拆解概念,一一掌握技術...

DAY 20

《資料與程式碼的交鋒》Day 20 - 分散式處理引擎 Flink

昨天我們透過 Debezium + Kafka Connect 的搭配,我們把分別來自 Postgres 和 Mongo 的訂單 orders 和 顧客 use...