iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0

"那個Timmy啊,廠商那邊又有多一組類型的資料,你再幫忙收一下"
"Jerry,資料好像有少喔,幫忙看一下是哪邊的問題,以後看到類似的問題看有沒有一些方法可以通知相關人員"

上述的場景和對話,是 Data Team 成員以及 Data Engineer 常會聽到的對話。在剛剛開始接觸 Data 工作的時候,相信很多人會覺得有些茫然,儘管被交付的任務是容易的理解的,好比說是建立一個 Data pipeline,清洗某一段的資料,把資料從地端傳輸到雲端等等,但是心裡總是會有些不踏實。不踏實的點來自於,儘管功能可以做的出來,但卻不知道怎麼樣叫做的好,以及有哪些地方是要注意的部分等等疑惑,就這樣帶著疑惑完成了工作。

這個問題會隨著經驗增長碰到的狀況變多,該踩的雷都踩了之後,可能就逐漸得更知道哪些需要去注意,但我們也可以從更整體的角度來看 data management 這件事。透過全局觀點,更全面的去思考我們的工作以及架構是否都有注意到。這也是為什麼我想要在這邊先談談 Data Management 的全局,儘管談完之後可能又會引發另一個層面的茫然(笑),但相信在這過程中會逐漸熟悉整個 Data Management的。

什麼是 Data Management

如果我們問一百個人一個問題:什麼是Data Management? 相信會有一百種不同的答案。因為這是一個涉及範圍非常廣的問題。

Data Management is the development, execution, and supervision of plans, policies, programs, and practices that deliver, control, protect, and enhance the value of data and information assets throughout their lifecycles.
--DAMA-DMBOK

DAMA (Data Management Association) 是一個在推動關於 Data Management 概念和實踐的非營利組織,是由自願者組成的國際組織。DAMA 將 Data Management 做了定義: Data Management 是制定、執行和監督計畫、政策、方案和實際操作的過程,讓整個資料和資訊資產的生命周期內,確保其交付、控制、保護和增強價值。

Data Management 領域分類

看完了上述的定義之後應該還是覺得摸不著頭緒吧,接著我們可以看看 DAMA 整理出的Data Management 涵蓋領域,幫助我們能夠有一個大的框架來針對各個領域進行歸類及學習。

https://ithelp.ithome.com.tw/upload/images/20230920/20140477pZwNmRHMnD.jpg
(圖一) 圖片出處:DAMA International.

上圖中我們可以看到DAMA分類的Data Management 類別:

  • Data Governance
  • Data Modeling & Design
  • Data Storage & Operations
  • Data Security
  • Data Integration & Interoperability
  • Data & Content Management
  • Reference & Master Data
  • Data Warehousing & Business Intelligence
  • Metadata
  • Data Quality
  • Data Architecture

https://ithelp.ithome.com.tw/upload/images/20230920/20140477NjStSoQX5j.jpg
(圖二) 圖片出處:DAMA International.

看完圖一之後好像有點感覺!但還是覺得有點籠統嗎? 那我們可以再來進一步看看圖二,DAMA進一步的把各類別的相關的議題列出。了解了這些類別範疇後,我們可以一步步地構築對 Data Management 完整的知識及經驗。

Data Management 各領域的關係

知道了 Data Management涉及的各個範圍之後,那這些領域彼此是如何相互影響呢? 圖三是 Peter Aiken 提出的Data Management 相互關係的金字塔圖。
我們可以看到最底層的是 Data Governance ,Data Governance 建立了整個Data Management 的規則及方針。在實際層面我們最會先實作的是中間藍色的部分。一般基本的應用由這層開始建立起。這一層包含了資料的儲存與操作、資料整合、資料的建模和設計、資料安全等等領域。隨著基礎的應用穩定之後,團隊以及服務逐漸會往藍色區域上下的領域逐步完善。而一個好的 Data Management 可以幫助在頂端的資料分析及大數據應用層面發揮出最大的價值。

https://ithelp.ithome.com.tw/upload/images/20230920/20140477LJ41K1we9F.png
(圖三) 圖片出處:DMBOK pyramid, Peter Aiken

由於這次的主題並不是以介紹 Data Management 為主,因此在這邊只簡單扼要地點到各個主題,如果想要精通各自主題的話可以參考這些類別再近一步進行研究。了解整體 Data Management 的全貌之後,接下來我們一步步地進入 Data pipeline 開發的主題。


上一篇
『Day4』資料工程師所需之技能
下一篇
『Day6』 Data pipeline 介紹
系列文
Data pipeline 建起來!用 Airflow 開發你的 Data pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言