Day 10 - 回顧：以資料分析師的角度詮釋資料模型 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 10

AI/ ML & Data

華人市場資料打撈師求生指南系列第 10 篇

Day 10 - 回顧：以資料分析師的角度詮釋資料模型

16th鐵人賽

hh_chien

團隊資料工程師甘苦談

2024-09-24 21:59:24

638 瀏覽

分享至

前面九天的篇幅，大致上可以分為三個部分：

為什麼華人市場資料團隊的現狀慘不認睹之我見

我自己如何詮釋與數據有關的 buzz word

商業流程與資料模型

之所以選擇從「我見」作為系列文的開頭 4 篇，是因為儘管在做過不少資料管線梳理與開發的專案後，我對自己的身份認同還是「資料分析師」。我認為，分析師最重要的是「觀點」（假設），不論是發表自己的或是理解他人的，只有在了解觀點後，才能從資料想辦法去驗證「觀點」，否則永遠不知是為何而撈的打撈師。

也因此才會以我見開頭，陳述自己對某些現象的觀點（當然也很歡迎之後的打臉與討論）。之後再過渡到商業流程、指標與商業模型等等跟資料模型相關的部分。

資料模型與資料分析的關係

就如前面幾篇所說，資料分析說到底就是透過資料找出商業運營可以優化的地方，而我們需要透過指標去量化比較他所象徵的這個商業流程，現在到底是好還是不好。事實上不管是什麼分析，最重要的都是確認好自己想追蹤、優化的指標 (應變數）是什麼。

也如前面所說，在資料市集中的資料模型內部每張表格都是在模擬商業中的每一個實體 (Entity) 或是每一個商業活動。如果建立好的資料模型，資料分析自然有機會規模化、效率化。

資料模型：表格與關聯

設計資料模型，即時在定義表格本身以及表格自身的關聯。

表格是由列 (row) 以及欄 (Column) 組成，定義表格就是在定義欄跟列：
- 定義列：顆粒度、所代表的實體，舉例來說：表格名 dim_company 就代表每一列都是一間公司，不會有兩列代表同一間公司的情況發生 ; 或是 fct_monthly_product_sales ，就代表顆粒度是 (month, product_Id) 的複合體。
- 定義欄：欄位本身所代表的意義

常見的表格關聯則有：一對一、一對多、多對多。在資料市集的設計中以一對多最為常見。直觀地想，一個個體，可以重複做同樣的商業流程很多次，像是一間公司可以下多筆訂單等。

接下來會涵蓋的內容：

在簡單在簡單回顧完資料分析以及資料模型後，接下來會詳細介紹：

資料市集的資料模型設計：Star Schema 與 Snowflake Schema。
利用 dbt 打造從資料源到資料市集的流水線：Day 1 中請你去要的資料庫權限要到了嗎？這裡會教你從頭開始建立 dbt 專案，利用 SQL 輕鬆進行複雜的資料轉換。可能也會有人問為什麼不用 Power BI 的 Power Query 做轉換呢？答案很簡單：
1. 機器學習或是統計分析時，資料也不會從 Power BI 出來，不如把資料轉換做在 SQL 資料庫裡比較方便。而且
2. 我也不會 Power Query 。
透過 Power BI 打造人人皆可使用的 Semantic Model：你有聽過 Power BI 是為了 Star Schema 而生的 BI 工具這句話嗎？學 DAX 前，請先學會設計 Semantic Model ，兩個都學會後就可以準備從資料打撈師的人生畢業了。這部分正是各中小企業資料打撈師的救星！（誰叫台灣的中小企業這麼愛 Power BI ，卻沒什麼資料建模概念。）

最後整理一下之後會需要的工具，之後會再帶大家安裝：