為什麼要在 Data & AI 領域討論 Metadata 呢? 因為它是資料庫系統中的指南針。
元數據:中國大陸用語
詮釋資料:數發部核定「資料集詮釋資料標準規範」用語
後設資料:國科會「數位典藏國家型科技計畫」用語
本文採數發部用語「詮釋資料」。實際上 Metadata 在西方的別名也不少,包含 Schema、Schemas、Schemata、Format、Formats、Element sets、Standards、Systems、Catalogues(摘自數位典藏國家型科技計畫第二章 後設資料入門導論)。
一張照片裡的資料與詮釋資料
圖片來源:Piotr Kononow, What is Metadata (with examples)
一本書裡的資料與詮釋資料
圖片來源:Piotr Kononow, What is Metadata (with examples)
Metadata 用 Hadoop 系統來解釋是最好的。Hadoop 是用來實作資料湖泊的方案,資料湖泊如前文(Database 資料庫系統)提到是一種 “schema on read” 的資料庫系統,來源系統擷取過來的原始資料是以檔案形式儲存,能後續有需求時再賦予 metadata(The Hive Metastore),也能賦予後再解除與 metadata 之間的綁定,但是就無法用原來的 Hive Query 查詢該資料了。
圖片來源:Hive Metastore – Why It’s Still Here and What Can Replace It?
實作面的延伸閱讀:Metadata Management(企業資料架構的神經系統)