前一天我們初步了解了ETL以及維度模型的定義,今天我們來談談資料庫與資料倉儲的差別。
在做機器學習應用時,有資料就代表著有優勢,而一般來說擁有大量的資料做出來的機器學習模型就會更好,在這個大數據時代下,每個人都想拿到各種資料去做機器學習應用,但是你夠了解你的資料嗎?你的資料到底屬於甚麼性質?究竟是Gold還是Garbage呢?
資料倉儲是應用在決策支援DS(Decision Support)與商業智慧BI(Business Intelligence)的部分,大約在1990年代因為硬體技術的進步,使得資料倉儲的概念出現,一個資料倉儲做得好不好取決於你的維度屬性設計得好不好,在做統計分析、資料探勘DM(Data Mining)都得先做好資料倉儲,想做機器學習的話也是
維運系統通常處理的是資料庫,也就是所謂的交易處理系統,而不是資料倉儲,OP通常在處理的資料是:
今天先介紹到這,今天我們來討論構建資料倉儲的維度模型。