30 天挑戰進到倒數第四天了,前面我們談的資料技術也不在少數,不過這僅僅是冰山一角而已。資料工具不斷推陳出新,我認為和商業模式的多元化、複雜化很有關係。不過,最根本的原因是企業從資料運用上得到更多好處了,可能是決策輔助、營收提升或是成本控管等。
今天我們就不談工具了,聊聊資料治理 (data governance) 吧!
資料治理是指企業為了確保其資料資產能夠被正確且可靠地管理和運用,所制定的一套流程。資料治理的目標包括不違反所在地法規與政策,能保護使用者的隱私,以及資料在整個組織內的可用性。以下我們就把幾個資料治理的要點透過企業形象 (對外) 及組織管理 (對內) 一一說明。
資料安全涉及如何保護資料免受未經授權的訪問、洩露或竄改,這一點在合乎法規 (如個人資料保護法) 下尤其重要。透過設立適當的存取控制、加密、和審核流程以確保資料安全性,並避免資料外洩風險。
存取控制的目標是確保只有經授權的用戶能夠訪問適當級別的資料。不同角色會有不同的資料存取權限,並且透過設置適當的權限管理,組織能夠確保敏感資料的安全性。這包括身份驗證、多重認證等措施,來保障資料被安全地加值運用。
資料生命週期管理包含從資料的創建、儲存、使用到最終的存檔或刪除。良好的資料生命週期管理策略能夠幫助組織有效地管理資料量,確保在適當的時間點處理資料,並根據法規要求保存或刪除資料。這同時能夠提升資料運用效率並減少不必要的儲存成本。
資料品質已經在 Day 24 和 Day 26 談過兩次,就不再覆述「品質」的定義。品質疑慮可能來自資料源的不預期修改或不同資料系統之間的資料傳輸問題等。在 data pipeline 上線時,如果能同步規劃異常值監控或偏離常態分佈的數值警示,是可能讓資料品質提升的,提升資料運用者對供給端的信賴感。
透過資料擁有權和責任區域清楚劃分,界定角色與部門對資料的建立和使用負管理責任,企業可以避免責任模糊和找不到對接人員的困擾。例如昨天談到的 Dashboard 出現異常錯誤,在一個後端微服務與集中式資料團隊搭配 (多打一) 的情況下,管理責任劃分對於問題盤查與反應速度就至關重要了。
標準化是指建立一致的資料格式、命名規則、結構和定義,以便跨系統或部門間的資料能夠順利交換,例如 Day 22 提到的 AVRO 和 Schema Registry 就是資料傳輸的一種規範做法;在可能接觸到 data pipeline 的資料工程師、資料分析師、分析工程師中協商出一套表名與欄位名的命名定義規則,也是資料標準化涵蓋的範圍。
以企業對外的面向而言,資料安全、存取控制和生命週期管理都是打造企業形象的一環,做好這些風險的管控,也會讓匯聚在產品的用戶們更放心地持續使用,持續黏著在平台上。同時需要拿捏管理的尺寸,讓資料運用的步調得以推展而不被綑綁。當然這和產業類型以及對應的監管法令有關。
以組織內部的運作面向而言,透過適當的標準規範、監控機制以及權責劃分,能讓部門團隊間合作更順暢,彼此信賴感更高。
雖然這種資料治理議題看起來在較大的企業組織才顯得重要。不過,假如透過資料運用的力量讓產品一夕之間爆紅,那這些資料可以幫助企業站在「風口」,但同時也是「風險」。也因此,資料治理的理念不能到了需要的時候才開始建構。