iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 10
0
Google Developers Machine Learning

透視Google Machine Learning的奧秘系列 第 10

[Day10] 你了解你在做機器學習時的資料嗎?ETL架構的子系統與與資料品質的衡量(5/6)

前一天把維度模型部分都將介紹完,今天我們來討論ETL架構的子系統與與資料品質的衡量。

34個ETL的子系統:

Extract:1-3
Clean & Conform:4-8
Deliver:9-21
Operations:22-34

Extract萃取:

萃取是把原始來源端直接放進集結區中,直接抄寫放入集結區,盡可能不要重組或修改它,如果萃取過程中斷了,要有很高度的彈性重新啟動

Cleaning清理:

清理的過程就是提高資料品質,例如:

  • 單一欄位清理
  • 跨欄位的資料一致
  • 重複的資料清除掉

Conforming一致化:

一致化取決於我們對資料的相關背景知識有沒有很了解,通常兩個以上的資料來源要做合併,這時候就要做一致化,需要對資料特徵有高度理解,比如說要做二合一的話:

  • 文字型:欄位名稱要一致,注意同名異意異名同義問題
  • 數值型:度量單位要一致

Delivering交付:

Deliver之後就是來到front room

資料品質議題

資料品質的議題如果發生在來源端:

  • 觀察資料特徵來判斷資料,觀看它的內容、一致性、結構,比如說:最大最小值、分布、欄位缺值的狀況?
  • 先進行評估要不要採用某個資料集,評估後的狀況是很好、不採用或是差強人意?如果說決定要用它的話需要界定出到底有多少問題要解決的?以及可應用用途為何?

如果發生在ETL端:

  • 不是光靠擷取資料特徵就可以解決,從作業流程建立防呆機制,對過去尚未處理的資料進行補救
  • 大部分的問題能在來源端被解決,只有少部分能夠在ETL端被解決

取用原始資料時要很小心翼翼,自己所拿到的資料不見得是百分之百正確,要透過程式或工具來觀察它的資料特徵、它的內容、一致性、結構,測試說是否符合我們的需求來評估要不要取用,如果要用的話會有多少問題是需要解決的,在使用或是在資料清理的過程中也要格外細心,所以說資料品質的問題越早發現越早處理越好,早期診斷、早期分類、早期治療,才能避免需要花大量時間補救。

今天先介紹到這,明天我們討論資料倉儲與商業智慧應用。

參考資料與圖片來源


上一篇
[Day09] 你了解你在做機器學習時的資料嗎?建立維度模型好比經營餐館一樣?(4/6)
下一篇
[Day11] 你了解你在做機器學習時的資料嗎?資料倉儲與商業智慧應用(6/6)
系列文
透視Google Machine Learning的奧秘30

尚未有邦友留言

立即登入留言