iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 9
1
Google Developers Machine Learning

透視Google Machine Learning的奧秘系列 第 9

[Day09] 你了解你在做機器學習時的資料嗎?建立維度模型好比經營餐館一樣?(4/6)

前一天介紹了維度模型,今天就維度模型部分繼續做補充。

企業要做DW/BI時規模非常龐大,會有70%時間精力花在DW/BI環境,需要要先挑最重要的一、兩個議題做,而做ETL前維度模型要先設計好

ETL各自的工作項目

  • 萃取:Extract,從資料來源系統把資料萃取出來,原封不動地抄寫到集結區,最大的挑戰是如何萃取的快?
  • 轉換:Transformation,資料清理,資料格式統一,資料清理取決於我們的目標,空格也要注意去清理,集結過程中需要暫存區
  • 載入:Load,轉換完的資料載入到設計好的維度模型裡面

建立維度模型好比經營餐館一樣

back room(廚房):

  • 已經設計好食譜=維度模型已經先設計好
  • 原食材從菜市場買回來=sourse system的data(raw data)
  • 食材買回來要先清洗,要按照食譜去做轉換的=清洗清理資料
  • 朝著我們設計的食譜設計=想要設計的維度模型的樣子/images/emoticon/emoticon82.gif
  • 炒好煮好之後放到盤子=放到維度模型裡面

front room(客人end user):

  • 客人享用食物=客人拿去做BI的應用
  • 客人只能透過presentation area到維度模型把資料拿去作商業智慧應用(BI APP)或統計與機器學習應用等,終端使用者看到的就是資料呈現區

The Staging Area資料集結區(危險的廚房):

End User是不能碰集結區的,因為怕把資料弄壞(使用增刪修改),而多數都會有安全上的問題(機密、個資),所以只有廚師能碰=資料管理人員Data manager

今天先介紹到這,明天我們來討論ETL架構的子系統與與資料品質的衡量。

參考資料與圖片來源

  • 我的大學老師

上一篇
[Day08] 你了解你在做機器學習時的資料嗎?深入探討維度模型(3/6)
下一篇
[Day10] 你了解你在做機器學習時的資料嗎?ETL架構的子系統與與資料品質的衡量(5/6)
系列文
透視Google Machine Learning的奧秘30

尚未有邦友留言

立即登入留言