iT邦幫忙

2024 iThome 鐵人賽

DAY 24
1

https://ithelp.ithome.com.tw/upload/images/20241008/20168816VEiEfNTtMK.jpg

前面二十幾天談了很多資料體系的建構,最後一個階段讓我們來聊聊資料的運用吧!
還記得國中公民課談的馬斯洛需求層次理論 (Maslow's hierarchy of needs),由金字塔的底部到頂層分別是生理需求 ⮕ 安全需求 ⮕ 愛與歸屬感 ⮕尊重需求 ⮕ 自我實現。而金字塔的結構是,下層的需求被實現,才能逐步追求上層需求。
在資料的世界裡,也有著這樣的需求金字塔存在,我們依序來談論每個階層代表的意義。
https://ithelp.ithome.com.tw/upload/images/20241008/20168816pb5qvK7xEO.png
Source: https://www.astronomer.io/events/webinars/data-lineage-with-openlineage-and-airflow-video/

資料可用性


資料可用性 (Data Availability) 是所有資料管理的基礎。它指的是資料是否隨時可被取用。
對於企業來說,這意味著資料應該被適當地儲存、備份,且在需要時能夠被快速且可靠地存取。資料的可用性確保了業務營運不會因資料缺乏而受阻,例如資料庫故障的風險,我們就可以透過雲端或分散式儲存系統來確保資料的可用性。
更狹義地談資料加值運用,若以我們先前提過的衍生資料系統如資料倉儲,就是一個取用資料的入口,因為它與業務資料庫分離,不讓其他的資料需求影響 OLTP 的運行。

資料新鮮度


資料新鮮度 (Data Freshness) 是指資料的更新頻率和時效性,這概念算是 Day 08Day 11 的加總,透過任務編排的執行頻率,以及資料倉儲對資料源歷程變化的記載方式共同決定。
若為較長時間的分析例如週/月/季度報告,那麼資料的新鮮度為每日更新就可以。總之,ELT 流程運行的頻率影響到它是否能夠及時 (in time) 反映當前情況。但若是談論到即時 (real-time),則呼應到 Day 23 所談的,核心考量是是「即時看到資訊後,能有什麼樣的改變行為?」例如網購服務,庫存顯示與消費者的訂購行為即刻相關,那麼庫存資訊就該以即時資料流來服務。

資料品質


資料品質 (Data Quality) 是指資料的準確性、一致性、完整性和可靠性。高品質的資料能夠讓企業基於準確資訊做出有效的決策。以下列出幾個品質的面向:

  • 時間完整性:歷史資料沒有缺漏。
  • 屬性完整性:該同步的資料欄位都有取得。
  • 指標定義一致性:從不同 data pipeline 取得的同一指標定義要一致。
    (當然,更好的做法是直接整合 data pipeline 滿足 single source of truth)
  • 運用準確性:例如一張增量記錄資料源變化的表,若只需要最新狀態的資料,就應該去重複 (deduplication) 後再使用。
  • 來源可靠性:資料品質會受到上游資料品質的疊加影響,要確保來源的可靠性,會需要仰賴資料血緣 (data lineage) 的追蹤,包含表和表之間的關聯 (table lineage),以及欄位和欄位之間 (column linage) 的繼承關係。

業務發展最佳化 | Business Optimization


在資料可用性及新鮮度高且品質良好的前提下,企業可以進一步透過資料運用改善其業務。這層級主要聚焦於如何透過資料驅動 (data-driven) 的方式來提升業務流程,做出更有效的策略決策。
例如,將資料應用於營運效率、流量轉換、顧客體驗等方面,以達成更佳的業務表現。

  • 利用消費記錄瞭解顧客生態,制定相對應的行銷計畫例如發送優惠券喚醒沈睡顧客。
  • 利用事件收集埋點掌握線上顧客來源及轉換率漏斗,進而調整網站設計改善可能流失點。
  • 利用顧客瀏覽紀錄進行個性化推薦,提升顧客體驗並增加銷售額。

尋找市場新契機 | New Opportunities


最頂層的資料需求,就是藉由資料的力量找出市場新契機以擴張業務。這包含資料創新應用,或者透過資料探索新的市場、產品和服務方向。企業能夠通過深入挖掘資料,發現潛在的成長機會和未被發掘的價值。

  • 結構化資料:零售業者透過現有店面營運資料,搭配潛在開店點的調查資料,預測當地營運情況,從而決定在哪些地點開設新店面。
  • 非結構化資料:透過更多文字資料進行情感分析,來瞭解消費者的情緒反應,進而幫助企業發現市場趨勢和需求。

小總結|穩固的基礎帶來高階運用的可能


先前看過朋友分享限時動態:「資料團隊的第一人,無論聘用的職稱是什麼,最後一定都會變成資料工程師,或做資料工程的事。」從這個金字塔就一覽無遺了。
第一位資料人最初入職時都會期待自己可以在業務發展最佳化和尋找市場新契機之間一展長才。但最後發現,資料需求都建構在可用性、新鮮度和品質這三項基礎上。不信的話,聽聽這三句話就知道。

「可以撈出客戶的資料給我看看嗎?」⮕ 資料可用性
「這客戶的資料最後更新的時間是什麼時候?」⮕ 資料新鮮度
「為什麼客戶的業績總和不等於訂單金額總和?」⮕ 資料品質

這些基礎的問題不解決,對於業務發展或擴張市場的資料運用,很容易被質疑可靠性。

到此時我們才發現:

在提升資料品質與提升業務運用面前,
我們選擇了跳過了資料品質而快速提升業務運用。
但在市場給了我們最真實的回饋之後,
我們仍得為了提升資料品質而努力。

正因為不同層需求要解決的問題與技術方向有所差異,才出現了特化的資料工程師與資料分析師。不過,資料需求金字塔各階層間的相依性,值得所有資料人共同瞭解。


上一篇
《資料與程式碼的交鋒》Day 23 - 基礎建設篇總回顧
下一篇
《資料與程式碼的交鋒》Day 25 - 資料產品化
系列文
資料與程式碼的交鋒 - Data Engineer 與合作夥伴的協奏曲 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言