前一天把維度模型部分都將介紹完,今天我們來討論ETL架構的子系統與與資料品質的衡量。
Extract:1-3
Clean & Conform:4-8
Deliver:9-21
Operations:22-34
萃取是把原始來源端直接放進集結區中,直接抄寫放入集結區,盡可能不要重組或修改它,如果萃取過程中斷了,要有很高度的彈性重新啟動
。
清理的過程就是提高資料品質,例如:
一致化取決於我們對資料的相關背景知識有沒有很了解,通常兩個以上的資料來源要做合併,這時候就要做一致化,需要對資料特徵有高度理解,比如說要做二合一的話:
同名異意
與異名同義
問題Deliver之後就是來到front room
資料品質的議題如果發生在來源端:
取用原始資料時要很小心翼翼,自己所拿到的資料不見得是百分之百正確,要透過程式或工具來觀察它的資料特徵、它的內容、一致性、結構,測試說是否符合我們的需求來評估要不要取用,如果要用的話會有多少問題是需要解決的,在使用或是在資料清理的過程中也要格外細心,所以說資料品質的問題越早發現越早處理越好,早期診斷、早期分類、早期治療
,才能避免需要花大量時間補救。
今天先介紹到這,明天我們討論資料倉儲與商業智慧應用。