這個題目會從我擔任 Data Engineer 的經驗出發,從過去與各種合作夥伴 (Backend Engineer, Data Analyst, Data Scientist 等) 協作過程中的挑戰出發,並從資料庫設計、軟體工程、基礎建設及資料運用等面向切入,說明不同職能間可能會有的知識落差。
期望透過本系列文章的說明,讓不同領域的人都對 Data 有更全面的理解,進而克服跨職能合作間可能會有的挑戰。
延續昨天的話題,我想要每天午夜完成一次從 Google Maps API 取得資料 ⮕ 計算各地點的評分 ⮕ 將結果寫入 CSV 這樣的動作,可以透過 Cro...
『如果工作流程很複雜,任務的相依性很高,Airflow 還是能實現嗎?』 圖/一個 DAG 完成 RFM 分析。簡書廷製。 我們以 Day 06 提到的...
『如果可以,我想和你回到那天相遇』(韋禮安,2021) 「與當時查出來的資料面貌再次相遇」在資料的世界,可能嗎?這和軟體工程,又有什麼牽連? 為什麼需要重...
試著想像一下,也許就像 Day 10 一樣做 Google API 的 資料收集 ⮕ 資料轉換 ⮕ 資料匯入,透過 Python + SQL 的程式碼,搭配...
我們延續 Day 14 提到的例子:從 Google Maps API 獲取資料,清理轉換後寫入 BigQuery 裡。資料處理的過程中需要運用以下套件:...
30 天挑戰就這樣默默過了一半呢!在第二階段,我們把資料工程中重要的排程設計,透過軟體工程的角度切入探討。 在過去的六篇文章中,我們探討了如何將程式碼模組化、工...
進入系列文的下半場,我們重新思考一次:是否所有資料的加工運用,都無法滿足「即時性」的需求? Batch v.s. Stream 我們在 Day 11 介紹 A...
我們從 Day 08 知道若從資料源的 OLTP 擷取資料變化送往資料倉儲這個 OLAP 系統進行加值運用,可能有全量、增量、SCD 等方式。再藉由 Day...
「資料變化要能即時反映出來,並透過事件的形式進行串接。」基於這樣的概念,我們需要在異動資料抵達系統時,在毫秒或秒級就處理完成。今天就逐步拆解概念,一一掌握技術...
昨天我們透過 Debezium + Kafka Connect 的搭配,我們把分別來自 Postgres 和 Mongo 的訂單 orders 和 顧客 use...