資料分析師主要應用的工具是: Tableau, PowerBI, FineReport 這種集成式的軟體。上述的軟體非常強大,就像 Microsoft 的 Office 360 一樣。
然而,我們有時候需要更靈活的工具:我們希望我們的工具可以像 Linux Shell 一樣,有許多小的零組件,一個零組件只做好一件事,比方說: awk, sed, tr, sort, cat, ... ,卻可以靈活地組合起來,而且,容易自動化。
本文就是要介紹「當代的」資料工程與資料分析技術,這套工具與方法論就像是 Linux Shell 一般地靈活、容易自動化、可以提昇數倍的產出。
心理學研究指出,一般來講,人類有三種主要的認知模式 (cognitive style),語言 (verbal)、物件視覺 (object visual)、空間視...
Metabase 有三種不同的使用方式: 探索式分析、自助式分析 (如數篇前文所介紹的) 互動儀表板:少數人建立好資料儀表板之後,分享儀表板給整個團隊使用。...
我曾協助某補教業的客戶建構企業內部的資料流程與儀表板。該公司在台灣有 200 間教室,於是,他們用 Metabase 做出了 200 個大同小異互動式儀表板,因...
之前,我們已經討論過,現代資料棧 (modern data stack) 用 ELT 取代 ETL ,所以資料轉換 (transformation) 的這一段工...
在前面我們已經談論了,在現代資料棧裡的轉換層 (transformation layer) 的主角其實是 SQL ,而 dbt 則是擔任輔助生成 SQL 的角色...
DuckDB 是一種 OLAP 專用的嵌入式資料庫 (embedded database),某種程度來講,它就像是 SQLite 的 OLAP 版本。註:SQL...
在前面的 3 篇文章,我們先是對 dbt/SQL 做了整體概括性的介紹,並且安裝好了一個精簡版的現代資料棧 (modern data stack),於是,我們可...
之前我們探討了 dbt 專案大概是怎麼運作。 然而,其中的第四步驟「開始編輯 $PROJ/models 下的 sql 檔,在其中寫入資料轉換 (data tra...
在先前的「dbt 基本操作」、「dbt 資料建模」的討論裡,已經概括地介紹了最基礎的 dbt 功能。讀者如果要應用 dbt 來做一些資料工程相關的工作,之前的內...
大學升三年級時,剛放暑假卻接到一通電話,找我去幫忙寫程式,有同學的期末專題刻不出來,找我去救火。那一回,要開發的專案要求是:「把記憶體中的樹狀資料結構,存到硬碟...