iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 7
0
Google Developers Machine Learning

透視Google Machine Learning的奧秘系列 第 7

[Day07] 你了解你在做機器學習時的資料嗎?談資料庫與資料倉儲的差別(2/6)

前一天我們初步了解了ETL以及維度模型的定義,今天我們來談談資料庫與資料倉儲的差別。

資料?

在做機器學習應用時,有資料就代表著有優勢,而一般來說擁有大量的資料做出來的機器學習模型就會更好,在這個大數據時代下,每個人都想拿到各種資料去做機器學習應用,但是你夠了解你的資料嗎?你的資料到底屬於甚麼性質?究竟是Gold還是Garbage呢?/images/emoticon/emoticon70.gif

今天就讓我們來認識資料庫與資料倉儲的差別!

資料倉儲

資料倉儲是應用在決策支援DS(Decision Support)與商業智慧BI(Business Intelligence)的部分,大約在1990年代因為硬體技術的進步,使得資料倉儲的概念出現,一個資料倉儲做得好不好取決於你的維度屬性設計得好不好,在做統計分析、資料探勘DM(Data Mining)都得先做好資料倉儲,想做機器學習的話也是

資料倉儲四大特徵 A DW is a ...

  • subject-oriented, 主題導向
  • integrated, 整合的
  • nonvolatile, 非揮發, or non updated不可更改
  • time-variant, 時間變異(隨著時間的過去,歷史就不斷的產生)

OP(operator, 維運):

維運系統通常處理的是資料庫,也就是所謂的交易處理系統,而不是資料倉儲,OP通常在處理的資料是:

  • 可預測的、例行性活動
  • 不會去維護歷史,資料放的是當前值(活的資料)
  • 當前值會有個期間,只要變更就會把舊的覆蓋過去,結束時那瞬間做一個快照(Snapshot),從系統裡面備份出來,放入資料倉儲

DW/BI(Datawarehouse, 資料倉儲):

  • 處理大量資料,所有資料處理手法的目的是用來評估一段時間的績效
  • 只存放歷史資料,不對歷史資料進行任何更動

OP與DW當中常用的資料庫操作

  • OP:insert、delete、change、access俗稱的增刪改查操作
  • DW:load、access只能夠載入和查詢,不能對歷史做任何更改

在交易處理系統中的資料用"record記錄"表示

在DW當中使用"granular資料顆粒"表示

今天先介紹到這,今天我們來討論構建資料倉儲的維度模型。

參考資料與圖片來源


上一篇
[Day06] 你了解你在做機器學習時的資料嗎?資料前處理之ETL概念介紹(1/6)
下一篇
[Day08] 你了解你在做機器學習時的資料嗎?深入探討維度模型(3/6)
系列文
透視Google Machine Learning的奧秘30

尚未有邦友留言

立即登入留言