本次參賽題目《動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉》
主要是想以工作專案使用之Trino為例,分享近年新興數據架構 — 資料湖倉(Data Lakehouse) 之概念,以及自資料倉儲(Data Warehouse)轉換至資料湖倉(Data Lakehouse)之實作、所遇問題和解決方法,還有一些個人淺見,期望能拋磚引玉,撰文之際還可得領域翹楚們相互指教。
前言 會有這個系列文,一方面是幹資料工程師也有一陣子了,一直想有機會能把工作所用所學的東西做知識管理;另一方面也是希望督促自己不要怠惰,工作之餘還是能抓時間讀...
OLTP vs. OLAP 如上節所述,處理交易過程細節繁多,且一個企業中可能就有數十種不同的交易處理系統,如: 產品銷貨系統 供應商管理系統 客服網站系統...
資料倉儲的資料流 要討論資料倉儲的缺點,先重新審視一下資料倉儲的資料同步流程,如上圖所示,可以看到此流程的幾個特性: 資料源頭必須是結構化的資料 (來源通...
資料湖與湖倉 為了解決上述資料倉儲所遭遇之問題,工程師們發展出了資料湖 (Data Lake)這種分析架構,從上圖可以得知資料湖的特性: *Open fi...
什麼是 Trino Trino is a distributed SQL query engine designed to query large data...
Trino 的資料來源 了解了 Trino 的組成架構後,也必須知曉 Trino 對資料來源的與存取與管理做了什麼樣的設計,畢竟這對一個好的查詢引擎來說至關重...
前言 《Trino 地端架設與調參》系列將講述如何自地端 (Local) 起一個 Trino toy example,從所需的配置文件 (configurat...
HTTP 與 UI 設置 配置 config.properties 時需注意 http 相關的設定 : https 認證 : Trino 使用 http...
Fault-tolerant 設置 在開始設定不同資料源 Catalog 之前,必須先補充上一篇 config.properties裡被我略過的設定,也就是...
多資料源 Catalog 設置 完成 exchange manager 設定後即可進入本篇的重頭戲 — 多資料源 Catalog 設置,有句話說的好,只要給T...