iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉 系列

本次參賽題目《動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉》

主要是想以工作專案使用之Trino為例,分享近年新興數據架構 — 資料湖倉(Data Lakehouse) 之概念,以及自資料倉儲(Data Warehouse)轉換至資料湖倉(Data Lakehouse)之實作、所遇問題和解決方法,還有一些個人淺見,期望能拋磚引玉,撰文之際還可得領域翹楚們相互指教。

鐵人鍊成 | 共 30 篇文章 | 8 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 01 - 什麼是交易?

前言 會有這個系列文,一方面是幹資料工程師也有一陣子了,一直想有機會能把工作所用所學的東西做知識管理;另一方面也是希望督促自己不要怠惰,工作之餘還是能抓時間讀...

2025-08-11 ‧ 由 bennyxu0624 分享
DAY 2

Day 02 - 交易型倉儲?分析型倉儲?

OLTP vs. OLAP 如上節所述,處理交易過程細節繁多,且一個企業中可能就有數十種不同的交易處理系統,如: 產品銷貨系統 供應商管理系統 客服網站系統...

2025-08-12 ‧ 由 bennyxu0624 分享
DAY 3

Day 03 - 資料倉儲的不足

資料倉儲的資料流 要討論資料倉儲的缺點,先重新審視一下資料倉儲的資料同步流程,如上圖所示,可以看到此流程的幾個特性: 資料源頭必須是結構化的資料 (來源通...

2025-08-13 ‧ 由 bennyxu0624 分享
DAY 4

Day 04 - 效能跟一致性? 資料湖倉全都要!

資料湖與湖倉 為了解決上述資料倉儲所遭遇之問題,工程師們發展出了資料湖 (Data Lake)這種分析架構,從上圖可以得知資料湖的特性: *Open fi...

2025-08-14 ‧ 由 bennyxu0624 分享
DAY 5

Day 05 - 初探Trino

什麼是 Trino Trino is a distributed SQL query engine designed to query large data...

2025-08-15 ‧ 由 bennyxu0624 分享
DAY 6

Day 06 - Trino 資料哪裡來

Trino 的資料來源 了解了 Trino 的組成架構後,也必須知曉 Trino 對資料來源的與存取與管理做了什麼樣的設計,畢竟這對一個好的查詢引擎來說至關重...

2025-08-16 ‧ 由 bennyxu0624 分享
DAY 7

Day 07 - Trino 地端架設與調參 (一)

前言 《Trino 地端架設與調參》系列將講述如何自地端 (Local) 起一個 Trino toy example,從所需的配置文件 (configurat...

2025-08-17 ‧ 由 bennyxu0624 分享
DAY 8

Day 08 - Trino 地端架設與調參 (二)

HTTP 與 UI 設置 配置 config.properties 時需注意 http 相關的設定 : https 認證 : Trino 使用 http...

2025-08-18 ‧ 由 bennyxu0624 分享
DAY 9

Day 09 - Trino 地端架設與調參 (三)

Fault-tolerant 設置 在開始設定不同資料源 Catalog 之前,必須先補充上一篇 config.properties裡被我略過的設定,也就是...

2025-08-19 ‧ 由 bennyxu0624 分享
DAY 10

Day 10 - Trino 地端架設與調參 (四)

多資料源 Catalog 設置 完成 exchange manager 設定後即可進入本篇的重頭戲 — 多資料源 Catalog 設置,有句話說的好,只要給T...

2025-08-20 ‧ 由 bennyxu0624 分享