前面花了不少篇幅在討論資料產品的開發,接下來將花一些篇幅討論資料產品的治理方式。
在做資料產品治理時,有一個很重要的觀念「將資料當作資產」。如果前面介紹過的,資料是根據特定的目的蒐集,需要將資料當作策略性的資產來管理。資料管理需要人、流程、以及科技的相互配合,也需要一定的資源投入已經公司支持,而且會牽涉到整個公司的系統和人員。
我們將初步介紹下圖這個滿通用的資料治理框架:
(https://edge.siriuscom.com/data/8-ways-to-ensure-a-strong-data-governance-framework)
企業中的資料其實會跨越組織的各個部門,因此在管理上需要設置一個專職的人員來處理這些資料的日常維運。這個人需要跨部門的綜觀所有資料的狀況,以此來管理資料、定義資料治理規範等。
如同一開始所說,「Garbage in, Garbage out」。資料品質需要在資料產品的各個流程中嚴格把關,透過適當的技術或規範來確保資料品質的一致性。
Metadata 紀錄以及定義了資料資產。每個資料集都會有針對這個資料集的簡單說明、欄位內容的定義、或是每次欄位變動時的更新紀錄,這些資料可以幫助我們了解資料資產的用途。
原始資料會根據需求產生其他加工資料,這些資料之間的關聯也需要被記錄下來。當上游資料發生異動的時候可以迅速盤點受到影響的下游;或是當下遊資料發生問題的時候,可以迅速盤點可能出問題的上游。
資料安全是個很直白的議題,一家企業中的資料會依據重要等級不同來管理可以接觸這些資料使用者。例如最原始的財務資料就只有財務相關人員才能接觸,資料科學家如果想要使用相關的資料需要特別的授權,或是資料要經過特別處理才能被使用。
在處理客戶資料時需要特別注意隱私相關議題。特別是在 GDPR 推出後,各個國家都更重視使用者的隱私權。不只是電話或是 Email,只要任何有機會辨識出原始使者的資料都要特別小心處理。
資料也是有其生命週期,從出生到被淘汰或封存,都需要制定相關的標準、政策和流程來管理。一筆兩筆資料看起來可能沒什麼,但是長期累積下來也是非常佔用磁碟空間、也會造成計算以及處理上的負擔。所以需要根據需求適時的根據資料類型來管理生命週期。像是使用者點擊的資料,原始資料只需要留一年、彙整過的聚合資料可以留五年;那如果是使用者的病歷資料,那就需要永久的保留,無法刪除。
資料治理是一個非常大的議題,後續我們會再針對個別面向做更深入的討論和說明。
https://edge.siriuscom.com/data/8-ways-to-ensure-a-strong-data-governance-framework