前面二十幾天談了很多資料體系的建構,最後一個階段讓我們來聊聊資料的運用吧!
還記得國中公民課談的馬斯洛需求層次理論 (Maslow's hierarchy of needs),由金字塔的底部到頂層分別是生理需求 ⮕ 安全需求 ⮕ 愛與歸屬感 ⮕尊重需求 ⮕ 自我實現。而金字塔的結構是,下層的需求被實現,才能逐步追求上層需求。
在資料的世界裡,也有著這樣的需求金字塔存在,我們依序來談論每個階層代表的意義。
Source: https://www.astronomer.io/events/webinars/data-lineage-with-openlineage-and-airflow-video/
資料可用性 (Data Availability) 是所有資料管理的基礎。它指的是資料是否隨時可被取用。
對於企業來說,這意味著資料應該被適當地儲存、備份,且在需要時能夠被快速且可靠地存取。資料的可用性確保了業務營運不會因資料缺乏而受阻,例如資料庫故障的風險,我們就可以透過雲端或分散式儲存系統來確保資料的可用性。
更狹義地談資料加值運用,若以我們先前提過的衍生資料系統如資料倉儲,就是一個取用資料的入口,因為它與業務資料庫分離,不讓其他的資料需求影響 OLTP 的運行。
資料新鮮度 (Data Freshness) 是指資料的更新頻率和時效性,這概念算是 Day 08 與 Day 11 的加總,透過任務編排的執行頻率,以及資料倉儲對資料源歷程變化的記載方式共同決定。
若為較長時間的分析例如週/月/季度報告,那麼資料的新鮮度為每日更新就可以。總之,ELT 流程運行的頻率影響到它是否能夠及時 (in time) 反映當前情況。但若是談論到即時 (real-time),則呼應到 Day 23 所談的,核心考量是是「即時看到資訊後,能有什麼樣的改變行為?」例如網購服務,庫存顯示與消費者的訂購行為即刻相關,那麼庫存資訊就該以即時資料流來服務。
資料品質 (Data Quality) 是指資料的準確性、一致性、完整性和可靠性。高品質的資料能夠讓企業基於準確資訊做出有效的決策。以下列出幾個品質的面向:
在資料可用性及新鮮度高且品質良好的前提下,企業可以進一步透過資料運用改善其業務。這層級主要聚焦於如何透過資料驅動 (data-driven) 的方式來提升業務流程,做出更有效的策略決策。
例如,將資料應用於營運效率、流量轉換、顧客體驗等方面,以達成更佳的業務表現。
最頂層的資料需求,就是藉由資料的力量找出市場新契機以擴張業務。這包含資料創新應用,或者透過資料探索新的市場、產品和服務方向。企業能夠通過深入挖掘資料,發現潛在的成長機會和未被發掘的價值。
先前看過朋友分享限時動態:「資料團隊的第一人,無論聘用的職稱是什麼,最後一定都會變成資料工程師,或做資料工程的事。」從這個金字塔就一覽無遺了。
第一位資料人最初入職時都會期待自己可以在業務發展最佳化和尋找市場新契機之間一展長才。但最後發現,資料需求都建構在可用性、新鮮度和品質這三項基礎上。不信的話,聽聽這三句話就知道。
「可以撈出客戶的資料給我看看嗎?」⮕ 資料可用性
「這客戶的資料最後更新的時間是什麼時候?」⮕ 資料新鮮度
「為什麼客戶的業績總和不等於訂單金額總和?」⮕ 資料品質
這些基礎的問題不解決,對於業務發展或擴張市場的資料運用,很容易被質疑可靠性。
到此時我們才發現:
在提升資料品質與提升業務運用面前,
我們選擇了跳過了資料品質而快速提升業務運用。
但在市場給了我們最真實的回饋之後,
我們仍得為了提升資料品質而努力。
正因為不同層需求要解決的問題與技術方向有所差異,才出現了特化的資料工程師與資料分析師。不過,資料需求金字塔各階層間的相依性,值得所有資料人共同瞭解。