iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉 系列

本次參賽題目《動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉》

主要是想以工作專案使用之Trino為例,分享近年新興數據架構 — 資料湖倉(Data Lakehouse) 之概念,以及自資料倉儲(Data Warehouse)轉換至資料湖倉(Data Lakehouse)之實作、所遇問題和解決方法,還有一些個人淺見,期望能拋磚引玉,撰文之際還可得領域翹楚們相互指教。

鐵人鍊成 | 共 30 篇文章 | 8 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day 11 - Trino 地端架設與調參 (五)

Trino CLI 設置 在開始盡情使用 Trino 前,總需要有個媒介幫助你下指令,而 Trino CLI ( Command Line Interface...

2025-08-21 ‧ 由 bennyxu0624 分享
DAY 12

Day 12 - 部署與 CICD,Trino 在雲端 (一)

前言 《Trino 地端架設與調參》系列都在介紹如何架設並啟動 地端 的 Trino Cluster 實例。 不過在實際情境中,部署通常不會在地端進行,而是需...

2025-08-22 ‧ 由 bennyxu0624 分享
DAY 13

Day 13 - 部署與 CICD,Trino 在雲端 (二)

設定 Trino Cluster - Coordinator 接下來就是對集群成員 — Coordinator 與 Worker 的配置,先說明 Coordi...

2025-08-23 ‧ 由 bennyxu0624 分享
DAY 14

Day 14 - 部署與 CICD,Trino 在雲端 (三)

設定 Trino Cluster - 集群外成員 這部分的設定一樣放在 trino-elt.yaml 裡頭,是集群成員以外的設定,包括了 Exchange m...

2025-08-24 ‧ 由 bennyxu0624 分享
DAY 15

Day 15 - 部署與 CICD,Trino 在雲端 (四)

環境切分 自上一篇中對 Trino cluster 的 helm chart 設定告一段落後,我們就可以來切分開發環境,並依照團隊需求去制定開發以及部署 Tr...

2025-08-25 ‧ 由 bennyxu0624 分享
DAY 16

Day 16 - 部署與 CICD,Trino 在雲端 (五)

Trino elt 部署流程 本文接下來要介紹的便是重頭戲 — 部署 trino-elt 的流程,此部分在部署腳本 deploy.sh 的這個區塊很清楚的呈現...

2025-08-26 ‧ 由 bennyxu0624 分享
DAY 17

Day 17 - 冰山不止一角,Iceberg 與 S3 (一)

前言 《部署與 CI/CD,Trino 在雲端》系列中,我們說明了 Trino 的雲端部署方式、測試與正式環境的切分策略,並介紹了部署過程中的 CI/CD 流...

2025-08-27 ‧ 由 bennyxu0624 分享
DAY 18

Day 18 - 冰山不止一角,Iceberg 與 S3 (二)

「目錄」與「時光機」 manifest 與 snapshot 就像 Iceberg 的「目錄」與「時光機」,分別負責掌管檔案的組織結構,以及資料在不同時間點...

2025-08-28 ‧ 由 bennyxu0624 分享
DAY 19

Day 19 - 冰山不止一角,Iceberg 與 S3 (三)

Trino + Iceberg on S3 查詢引擎百百種為何選中了 Trino 搭配 Iceberg 的組合呢?在先前的系列文《從倉儲到湖倉,初探Trin...

2025-08-29 ‧ 由 bennyxu0624 分享
DAY 20

冰山不止一角,Iceberg 與 S3 (四)

Iceberg 的效能問題 延續昨日我們對 Metadata 讀取 以及 Trino Splits 概念之介紹,我們知道Splits 數量一旦過多,將很可能會...

2025-08-30 ‧ 由 bennyxu0624 分享