iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉 系列

本次參賽題目《動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉》

主要是想以工作專案使用之Trino為例,分享近年新興數據架構 — 資料湖倉(Data Lakehouse) 之概念,以及自資料倉儲(Data Warehouse)轉換至資料湖倉(Data Lakehouse)之實作、所遇問題和解決方法,還有一些個人淺見,期望能拋磚引玉,撰文之際還可得領域翹楚們相互指教。

鐵人鍊成 | 共 30 篇文章 | 8 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21 - 冰山不止一角,Iceberg 與 S3 (五)

優化嘗試 根據昨日的結論,對於日益增加的資料量,使用自建機房成本效益並不大,那要怎麼做效能以及成本的優化呢? 看起來只能從查詢時的讀檔費用中來著手了,降低過多...

2025-08-31 ‧ 由 bennyxu0624 分享
DAY 22

Day 22 - 為什麼我改用 Iceberg (一)

前言 《冰山不止一角,Iceberg 與 S3》系列已對 Trino 搭配 Iceberg on S3 做了較為全面的介紹,說明這組「黃金組合」的優缺點,並分...

2025-09-01 ‧ 由 bennyxu0624 分享
DAY 23

Day 23 - 為什麼我改用 Iceberg (二)

效能比較 比較完成本後,效能肯定也不能比 BigQuery 差到哪裡去,否則得了便宜後例行工作需花三倍時間執行豈不是得不償失。 這邊筆者拿公司於 BigQu...

2025-09-02 ‧ 由 bennyxu0624 分享
DAY 24

Day 24 - 為什麼我改用 Iceberg (三)

基模演進 (Schema evolution) BigQuery 支援多種 schema 變更的操作,像是: 新增欄位 (Add) 刪除欄位 (Drop)...

2025-09-03 ‧ 由 bennyxu0624 分享
DAY 25

Day 25 - Trino + Iceberg ELT實作(一)

前言 在《為什麼我改用 Iceberg》系列中,我從成本與效能的角度,說明了將 Google BigQuery 替換為 Trino + Iceberg on...

2025-09-04 ‧ 由 bennyxu0624 分享
DAY 26

Trino + Iceberg ELT實作(二)

ETL 搬遷 對專案背景做完總結後,再來便可以進入 Trino ELT 實作的重點 — ELT 排程搬遷,本節將針對 BigQuery vs. Trino 在...

2025-09-05 ‧ 由 bennyxu0624 分享
DAY 27

Day 27 - Trino + Iceberg ELT實作(三)

增量更新 增量更新的做法很多,筆者以自己專案常用的方式 ( 以下列點 ) 做例子說明自 BigQuery 轉換到 Trino 的差異: 用特定鍵值 MERG...

2025-09-06 ‧ 由 bennyxu0624 分享
DAY 28

Day 28 - Trino + Iceberg ELT實作(四)

資料驗證 說到資料驗證可少不了單元測試 ( Unit test ): 在 BigQuery 上實作容易,因 BigQuery 同一個 project 底下可...

2025-09-07 ‧ 由 bennyxu0624 分享
DAY 29

Day 29 - 監控你的湖倉,Grafafa metrics 建立(一)

Trino Cluster 監控 說到 Trino Cluster 的維運,集群的健康度監控可是不能少,這邊列幾個筆者有實作的 Grafana 監控指標:...

2025-09-08 ‧ 由 bennyxu0624 分享
DAY 30

Day 30 - 監控你的湖倉,Grafafa metrics 建立(二)

Trino Query 監控 講完 Trino Cluster 的監控,當然要補充與查詢相關的監控指標,這邊列幾個筆者有實作的 Trino Query 監控指...

2025-09-09 ‧ 由 bennyxu0624 分享