iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

當代資料工程與資料分析 系列

資料分析師主要應用的工具是: Tableau, PowerBI, FineReport 這種集成式的軟體。上述的軟體非常強大,就像 Microsoft 的 Office 360 一樣。

然而,我們有時候需要更靈活的工具:我們希望我們的工具可以像 Linux Shell 一樣,有許多小的零組件,一個零組件只做好一件事,比方說: awk, sed, tr, sort, cat, ... ,卻可以靈活地組合起來,而且,容易自動化。

本文就是要介紹「當代的」資料工程與資料分析技術,這套工具與方法論就像是 Linux Shell 一般地靈活、容易自動化、可以提昇數倍的產出。

鐵人鍊成 | 共 30 篇文章 | 22 人訂閱 訂閱系列文 RSS系列文 團隊dbt 和 dbt 以外有趣的事
DAY 21

Transformation layer: SQL 進階語法

在之前的文章「技術棧 (technical stack) 的決策」,有討論過 SQL 2003 之後又有許多新增的 SQL 語法。要一一研究完那些語法,相當地花...

2023-10-06 ‧ 由 Laurence Chen 分享
DAY 22

Transformation layer: SQL 效能改進

在我協助客戶導入現代資料棧 (modern data stack) 的過程之中,常常見到一種奇怪的現象:分析工程師 (Analytic Engineer) 先嘗...

2023-10-07 ‧ 由 Laurence Chen 分享
DAY 23

EL layer: Meltano 概論

這邊先快速探討一下 EL 工具的常見解決方案: Fivetran Stitch Singer Airbyte Meltano Fivet...

2023-10-08 ‧ 由 Laurence Chen 分享
DAY 24

實務應用:常見的資料應用

有一些資料應用是名稱裡就有已經有提到「資料」或「分析」,又或是一般人都知道這些與資料有關,比方說: 機器學習、資料科學 推荐引擎 詐欺偵測 IoT (Inte...

2023-10-09 ‧ 由 Laurence Chen 分享
DAY 25

實務應用:異質資料整合/即時報表/io/join

本篇是談資料工程 (data engineering) 的最後一篇,之後會談另一個主題:資料分析 (data analysis) 。最後一篇談的議題還是在資料工...

2023-10-10 ‧ 由 Laurence Chen 分享
DAY 26

資料分析:概論

解讀資料這件事的歷史很長,它已經被科學家、統計學家、圖書館館員、計算機科學家以及其他人士討論多年。 --- 資料科學極簡史 (A Very Short His...

2023-10-11 ‧ 由 Laurence Chen 分享
DAY 27

實務應用:成效相關的分析方法

在許多公司裡,研發部門、設計員工和花費在市場發展、甚至在廣告上的努力,一直以來就是以下面的這種方式進行分配 --- 以交易而非以成效為主;以事情的難易度而非以...

2023-10-12 ‧ 由 Laurence Chen 分享
DAY 28

實務應用:生產力相關的分析方法

之前談到效能改進時,有個關鍵點可以決定事倍功半或是事半功倍:「是否有利用工具去對系統內部做量測?」 很多時候,因為關鍵的性質難以量測或是預測,取而代之的替代方案...

2023-10-13 ‧ 由 Laurence Chen 分享
DAY 29

實務應用:機會相關的分析方法

在公平的賭局裡、在只討論機率與統計的世界裡,由於期望值是固定的,報酬高的機會,風險往往也愈大。而在真實商業世界裡,對參賽者公平的賭局通常不存在,不公平才是常態,...

2023-10-14 ‧ 由 Laurence Chen 分享
DAY 30

結語:從現代到未來

「當代資料工程與資料分析」終於來到了結尾,在此處,我們除了做個總結之外,也一併討論資料應用在企業的趨勢與挑戰。 現代資料棧出現的意義 Day 1 ~ Day 2...

2023-10-15 ‧ 由 Laurence Chen 分享