本次參賽題目《動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉》
主要是想以工作專案使用之Trino為例,分享近年新興數據架構 — 資料湖倉(Data Lakehouse) 之概念,以及自資料倉儲(Data Warehouse)轉換至資料湖倉(Data Lakehouse)之實作、所遇問題和解決方法,還有一些個人淺見,期望能拋磚引玉,撰文之際還可得領域翹楚們相互指教。
優化嘗試 根據昨日的結論,對於日益增加的資料量,使用自建機房成本效益並不大,那要怎麼做效能以及成本的優化呢? 看起來只能從查詢時的讀檔費用中來著手了,降低過多...
前言 《冰山不止一角,Iceberg 與 S3》系列已對 Trino 搭配 Iceberg on S3 做了較為全面的介紹,說明這組「黃金組合」的優缺點,並分...
效能比較 比較完成本後,效能肯定也不能比 BigQuery 差到哪裡去,否則得了便宜後例行工作需花三倍時間執行豈不是得不償失。 這邊筆者拿公司於 BigQu...
基模演進 (Schema evolution) BigQuery 支援多種 schema 變更的操作,像是: 新增欄位 (Add) 刪除欄位 (Drop)...
前言 在《為什麼我改用 Iceberg》系列中,我從成本與效能的角度,說明了將 Google BigQuery 替換為 Trino + Iceberg on...
ETL 搬遷 對專案背景做完總結後,再來便可以進入 Trino ELT 實作的重點 — ELT 排程搬遷,本節將針對 BigQuery vs. Trino 在...
增量更新 增量更新的做法很多,筆者以自己專案常用的方式 ( 以下列點 ) 做例子說明自 BigQuery 轉換到 Trino 的差異: 用特定鍵值 MERG...
資料驗證 說到資料驗證可少不了單元測試 ( Unit test ): 在 BigQuery 上實作容易,因 BigQuery 同一個 project 底下可...
Trino Cluster 監控 說到 Trino Cluster 的維運,集群的健康度監控可是不能少,這邊列幾個筆者有實作的 Grafana 監控指標:...
Trino Query 監控 講完 Trino Cluster 的監控,當然要補充與查詢相關的監控指標,這邊列幾個筆者有實作的 Trino Query 監控指...