建立資料倉庫是一個解決企業資料問題應用的過程,是企業資訊化發展到一定階段必不可少的一步,也是發展資料化管理的重要基礎。
資料倉庫的知識介紹書籍和文章不少,但是實際實施依據行業不同,企業核心需求不同,從技術到方法論各有不同。
詳解資料倉庫的實施步驟: 本文接著上文詳解資料倉庫的實施步驟,實戰全解!(1)繼續講~
這篇文章中,我們會繼續講講 資料倉庫建模、資料超市建模、資料元分析這三個部分。
上文資料倉庫的實施步驟,實戰全解!(1)中我們講述了 需求分析、資料倉庫的邏輯分析、設計ODS系統 三個部分,希望對大家有幫助~接下來我們就從第四步資料倉庫建模開始吧。
資料倉庫建模在前面已經有了詳細的介紹,資料倉庫模型是IT技術開發人員、業務人員、決策管理者相互溝通的一套語言和平臺。對於資料建模工程師來說,對業務的深刻理解是最重要的任務,因為資料倉庫建模分為概念模型設計、邏輯模型設計和物理模型設計3個階段,一般按照自上而下的順序依次對模型進行設計。
概念模型主要是模型設計人員對業務規則的理解,是最高層次的資料模型,幾乎涵蓋了業務所有的核心概念和重要的主題,為以後邏輯模型的建設做基礎。
邏輯模型是對概念模型的分解、細化,將資料主題劃分成一個個的實體和實體關係,一般將第三正規化作為設計的模板。
物理模型在邏輯模型的基礎上對模型實體進行細節性的描述,包括欄位型別、長度、索引等因素,最後轉化成資料庫儲存的物理表。
一般資料集市模型的建設是基於需求分析得到的結果,資料集市的建模主要針對事實表和維表的設計。
例如,部門員工關係表,如果事實表包含部門編碼,則資料可以分析到部門。如果事實表又包含員工編碼,則資料既可以分析到部門,又可以分析到員工。一張事實表除了包含所要分析的維度編碼外,還包括需要分析的度量值。
例如,使用者用電分析表,它的主題描述就是按地區、時間、電壓等級統計使用者的耗電量、應收電費,並進行同期對比;它的維度就是地區、時間、電壓等級,度量值包括耗電量、應收電費等;指標來源就是資料倉庫中的計費結果表、使用者基本資訊表。維表一般採用增量的方式進行抽取。
所謂資料來源分析,就是對源資料進行分析和總結,得出源資料的範圍、格式、更新方式、更新頻率和質量好壞的過程。
資料來源分析是指通過需求調研得知業務資料來源的基本情況,並且加以詳細說明,具體內容包括資料來源中存在哪些物理表,表之間的關係和表中每個欄位的資料型別和含義等。一般來說,業務資料來源通常會有資料不完整、口徑不一致,或者各個資料來源存在業務規則不統一的情況。
另外,在分析的過程中,需要確定業務源資料中哪些資料需要被抽取。為了確定合適的抽取方式,需要在抽取之前對資料來源進行分析,分析的範圍一般包括資料的格式、資料的範圍、更新的方式、資料質量的好壞。在分析的過程中,應該儘可能獲取分析的結果,形成資料來源分析報告,在仔細研究分析報告後,再選擇合適的抽取、載入方式。瞭解這些資料來源的特點,有利於ETL 抽取時對資料的整合和統一,從而保證資料的質量和可信度。
目前為止,我們已經在第一篇文章中講述了需求分析、資料倉庫的邏輯分析、設計ODS系統,三個部分,第二篇文章中講解了料倉庫建模、資料超市建模、資料元分析這三個部分,內容比較多,能看下來真的不簡單呢!
下次預告…
07 資料的獲取與整合
08 資料應用和報表展現
本文由IT value研討社、帆軟商業智慧研究院共同創作。
Medium原文連結:詳解資料倉庫的實施步驟,實戰全解!(2)
歡迎按讚我的臉書 IT Value 研討社,發現更多精彩內容 ?
偷偷告訴你,私訊臉書小編,關鍵詞【數位化轉型】,即可獲取一份14個行業,240個轉型案例的最全資料包?