本次參賽題目《動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉》
主要是想以工作專案使用之Trino為例,分享近年新興數據架構 — 資料湖倉(Data Lakehouse) 之概念,以及自資料倉儲(Data Warehouse)轉換至資料湖倉(Data Lakehouse)之實作、所遇問題和解決方法,還有一些個人淺見,期望能拋磚引玉,撰文之際還可得領域翹楚們相互指教。
Trino CLI 設置 在開始盡情使用 Trino 前,總需要有個媒介幫助你下指令,而 Trino CLI ( Command Line Interface...
前言 《Trino 地端架設與調參》系列都在介紹如何架設並啟動 地端 的 Trino Cluster 實例。 不過在實際情境中,部署通常不會在地端進行,而是需...
設定 Trino Cluster - Coordinator 接下來就是對集群成員 — Coordinator 與 Worker 的配置,先說明 Coordi...
設定 Trino Cluster - 集群外成員 這部分的設定一樣放在 trino-elt.yaml 裡頭,是集群成員以外的設定,包括了 Exchange m...
環境切分 自上一篇中對 Trino cluster 的 helm chart 設定告一段落後,我們就可以來切分開發環境,並依照團隊需求去制定開發以及部署 Tr...
Trino elt 部署流程 本文接下來要介紹的便是重頭戲 — 部署 trino-elt 的流程,此部分在部署腳本 deploy.sh 的這個區塊很清楚的呈現...
前言 《部署與 CI/CD,Trino 在雲端》系列中,我們說明了 Trino 的雲端部署方式、測試與正式環境的切分策略,並介紹了部署過程中的 CI/CD 流...
「目錄」與「時光機」 manifest 與 snapshot 就像 Iceberg 的「目錄」與「時光機」,分別負責掌管檔案的組織結構,以及資料在不同時間點...
Trino + Iceberg on S3 查詢引擎百百種為何選中了 Trino 搭配 Iceberg 的組合呢?在先前的系列文《從倉儲到湖倉,初探Trin...
Iceberg 的效能問題 延續昨日我們對 Metadata 讀取 以及 Trino Splits 概念之介紹,我們知道Splits 數量一旦過多,將很可能會...