資料分析師主要應用的工具是: Tableau, PowerBI, FineReport 這種集成式的軟體。上述的軟體非常強大,就像 Microsoft 的 Office 360 一樣。
然而,我們有時候需要更靈活的工具:我們希望我們的工具可以像 Linux Shell 一樣,有許多小的零組件,一個零組件只做好一件事,比方說: awk, sed, tr, sort, cat, ... ,卻可以靈活地組合起來,而且,容易自動化。
本文就是要介紹「當代的」資料工程與資料分析技術,這套工具與方法論就像是 Linux Shell 一般地靈活、容易自動化、可以提昇數倍的產出。
在之前的文章「技術棧 (technical stack) 的決策」,有討論過 SQL 2003 之後又有許多新增的 SQL 語法。要一一研究完那些語法,相當地花...
在我協助客戶導入現代資料棧 (modern data stack) 的過程之中,常常見到一種奇怪的現象:分析工程師 (Analytic Engineer) 先嘗...
這邊先快速探討一下 EL 工具的常見解決方案: Fivetran Stitch Singer Airbyte Meltano Fivet...
有一些資料應用是名稱裡就有已經有提到「資料」或「分析」,又或是一般人都知道這些與資料有關,比方說: 機器學習、資料科學 推荐引擎 詐欺偵測 IoT (Inte...
本篇是談資料工程 (data engineering) 的最後一篇,之後會談另一個主題:資料分析 (data analysis) 。最後一篇談的議題還是在資料工...
解讀資料這件事的歷史很長,它已經被科學家、統計學家、圖書館館員、計算機科學家以及其他人士討論多年。 --- 資料科學極簡史 (A Very Short His...
在許多公司裡,研發部門、設計員工和花費在市場發展、甚至在廣告上的努力,一直以來就是以下面的這種方式進行分配 --- 以交易而非以成效為主;以事情的難易度而非以...
之前談到效能改進時,有個關鍵點可以決定事倍功半或是事半功倍:「是否有利用工具去對系統內部做量測?」 很多時候,因為關鍵的性質難以量測或是預測,取而代之的替代方案...
在公平的賭局裡、在只討論機率與統計的世界裡,由於期望值是固定的,報酬高的機會,風險往往也愈大。而在真實商業世界裡,對參賽者公平的賭局通常不存在,不公平才是常態,...
「當代資料工程與資料分析」終於來到了結尾,在此處,我們除了做個總結之外,也一併討論資料應用在企業的趨勢與挑戰。 現代資料棧出現的意義 Day 1 ~ Day 2...