iT邦幫忙

2025 iThome 鐵人賽

DAY 4
0
AI & Data

AI 江湖本無路,有了 Data 便有了路系列 第 4

Day 04: 數據的「身分證」:Metadata 的前世今生

  • 分享至 

  • xImage
  •  

前言:沒有描述的數據是天書

經過前幾天的修煉,我們有了數據(新石油),認識了數據英雄,也為數據蓋好了房子(資料庫、倉儲、資料湖)。但問題來了,當資料湖裡堆滿了成千上萬個檔案,一個新人進來,他怎麼知道 order_20231026.csv 裡的 col_A 欄位到底是什麼意思?是訂單金額還是數量?單位是台幣還是美金?

如果沒有一份「說明書」,這些數據就像一本天書,難以解讀和利用。這份說明書,就是我們今天要談的主角 — Metadata (詮釋資料)

https://ithelp.ithome.com.tw/upload/images/20250916/20112423zxqCCsZpA8.png

圖片參考來源: https://www.braintraffic.com/blog/an-introduction-to-metadata-and-taxonomies


什麼是 Metadata?

簡單來說,Metadata 就是「描述資料的資料」(Data about Data)

就像一本書的封面和版權頁,它告訴你書名、作者、出版社、出版日期等資訊,讓你不用讀完整本書,就能對它有基本的了解。在數據世界裡,Metadata 扮演著同樣的角色,它就是數據的「身分證」。

Metadata 可以包含:

  • 技術性 Metadata: 欄位名稱、資料型態 (字串、整數)、長度、檔案格式 (CSV, Parquet)。
  • 業務性 Metadata: 欄位的商業定義(例如:rev 是指 含稅後的營收)、資料擁有者 (哪個部門負責)、資料來源。
  • 操作性 Metadata: 資料最後更新時間、ETL 流程的執行狀態、資料品質檢查結果。

https://ithelp.ithome.com.tw/upload/images/20250916/20112423ydZFW9iGPC.png

圖片參考來源: https://dataedo.com/kb/data-glossary/what-is-metadata


現代資料架構的核心:分離儲存 Metadata

在傳統作法中(例如一個 Excel 檔案),數據和 Metadata 經常混在一起。欄位名稱(Metadata)和儲存格內容(Data)都在同一個檔案裡。

但現代資料架構,特別是在資料湖的場景下,強調一個核心原則:將數據與 Metadata 分離儲存。數據本體(例如 Parquet 檔案)存放在物件儲存中,而描述這些檔案的 Metadata,則集中存放在一個稱為 Data Catalog (資料目錄) 的地方。

為什麼要這樣做?

  1. 效率提升: 我想知道某張表有哪些欄位,不需要去讀取龐大的資料檔本身,只需查詢輕量的 Data Catalog 即可,速度快上千百倍。
  2. 治理與搜尋: 有了集中的 Data Catalog,我們才能建立一個像圖書館目錄一樣的系統,讓使用者可以搜尋「所有跟客戶相關的資料表」,並了解其來源與可信度。
  3. 自動化與 AI 應用: 自動化的 Data Pipeline 或 MLOps 流程,需要依賴 Metadata 來運作。例如,一個 AI 模型的訓練流程,需要從 Metadata 中得知訓練資料的存放位置、Schema 版本、以及特徵的定義,才能自動化執行。

https://ithelp.ithome.com.tw/upload/images/20250916/20112423WEx51R9pIG.png


結論:為你的數據辦一張身分證

Metadata 看似不起眼,卻是現代資料治理與自動化的基石。如果沒有良好的 Metadata 管理機制,你的資料湖最終只會變成誰也看不懂、誰也不敢用的「資料沼澤」(Data Swamp)。

為數據建立清晰的身分證,不僅能讓團隊協作更順暢,更是讓 AI 應用得以規模化、可信任的關鍵。從今天起,養成記錄 Metadata 的好習慣,是每位數據修煉者的必修課。


上一篇
Day 03: 萬丈高樓平地起:Database、資料倉儲與資料湖的三角對決
下一篇
Day 05: 駕馭數據的雙輪:SQL 與 NoSQL 的選擇題
系列文
AI 江湖本無路,有了 Data 便有了路5
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言