前面九天的篇幅,大致上可以分為三個部分:
之所以選擇從「我見」作為系列文的開頭 4 篇,是因為儘管在做過不少資料管線梳理與開發的專案後,我對自己的身份認同還是「資料分析師」。我認為,分析師最重要的是「觀點」 (假設),不論是發表自己的或是理解他人的,只有在了解觀點後,才能從資料想辦法去驗證「觀點」,否則永遠不知是為何而撈的打撈師。
也因此才會以我見開頭,陳述自己對某些現象的觀點(當然也很歡迎之後的打臉與討論)。之後再過渡到商業流程、指標與商業模型等等跟資料模型相關的部分。
就如前面幾篇所說,資料分析說到底就是透過資料找出商業運營可以優化的地方,而我們需要透過指標去量化比較他所象徵的這個商業流程,現在到底是好還是不好。事實上不管是什麼分析,最重要的都是確認好自己想追蹤、優化的指標 (應變數)是什麼。
也如前面所說,在資料市集中的資料模型內部每張表格都是在模擬商業中的每一個實體 (Entity) 或是每一個商業活動。如果建立好的資料模型,資料分析自然有機會規模化、效率化。
設計資料模型,即時在定義表格本身以及表格自身的關聯。
表格是由列 (row) 以及欄 (Column) 組成,定義表格就是在定義欄跟列:
- 定義列:顆粒度、所代表的實體,舉例來說:表格名 dim_company 就代表每一列都是一間公司,不會有兩列代表同一間公司的情況發生 ; 或是 fct_monthly_product_sales ,就代表顆粒度是 (month, product_Id) 的複合體。
- 定義欄:欄位本身所代表的意義
常見的表格關聯則有:一對一、一對多、多對多。在資料市集的設計中以一對多最為常見。直觀地想,一個個體,可以重複做同樣的商業流程很多次,像是一間公司可以下多筆訂單等。
在簡單在簡單回顧完資料分析以及資料模型後,接下來會詳細介紹:
最後整理一下之後會需要的工具,之後會再帶大家安裝: