我們在 拆解元數據 篇章中提到了業務詞彙在治理中的重要性。但在實務上,最常發生的災難就是大家打開 Excel,只填了「中文名稱」和「備註」,然後覺得治理做完了。
這種空泛的定義,對於自動化治理毫無幫助。
經過多次的迭代與磨合,我們總結出了一套 「業務詞彙標準結構 (Business Glossary Schema)」。這不僅僅是文件,它是業務端與 IT 端之間的 「資料契約 (Data Contract)」。
以下我將先揭露這份 規格架構,接著用 人資領域的員工主檔 作為實戰範例。
一個完善的業務詞彙,內部必須包含以下欄位。我們將其分為 基礎識別、核心定義、品質與安全、技術映射 四大類。
xxxx-xxxx 格式。1 (男) / 0 (女),或 Regex 規則。HR System (Workday)。hrdb.dbo.employee_master。理解了規格後,我們來看一個具體的例子。
假設我們要定義 HR 領域最核心的 「員工主檔」,它包含三個層次:
以下是填寫好的規格書範例:
| 元數據欄位 | 填寫內容 |
|---|---|
| 業務詞彙類型 | Data Standard (資料標準) |
| 業務詞彙領域 | Human Resources (人力資源) |
| 業務詞彙名稱 | Employee Master (員工主檔) |
| 業務詞彙同義詞 | Staff List, 員工名冊, 人員主檔 |
| 業務詞彙定義 | 收錄公司所有「在職」與「留職停薪」之正式員工資料。不包含派遣人員、實習生與已離職超過 30 天之員工。 |
| 業務詞彙規則 | 1. 資料必須於員工報到日當天 09:00 前建立。2. 每日 T+1 凌晨更新。 |
| 權責 (Ownership) | Data Owner: 人資長 (CHRO)Data Steward: 薪酬福利部經理IT Product Owner: HRIS 系統架構師IT Admin: HR 資料庫管理員 |
| 權威系統 | Workday (HR Core System) |
| 權威資料路徑 | hrdb.dbo.t_employee_master |
這裡展示一般屬性的定義,重點在於品質規範與機敏性。
| 元數據欄位 | 填寫內容 |
|---|---|
| 業務詞彙類型 | Attribute (屬性) |
| 業務詞彙名稱 | Employee ID (員工編號) |
| 業務詞彙定義 | 員工在公司內部的唯一識別碼,用於所有行政流程與系統登入。 |
| 業務詞彙品質規範 | 可否為空: N (必填)命名原則: Emp_ID有效值域: E 開頭 + 5碼數字 (Regex: ^E\d{5}$) |
| 機敏性 | L2 (Internal / 內部公開) |
| 法遵法規標籤 | N/A |
| 權威資料路徑 | hrdb.dbo.t_employee_master.emp_id |
| 元數據欄位 | 填寫內容 |
|---|---|
| 業務詞彙類型 | Attribute (屬性) |
| 業務詞彙名稱 | Employee Legal Name (員工法定姓名) |
| 業務詞彙定義 | 員工身分證或護照上登載之法定全名。 |
| 業務詞彙品質規範 | 可否為空: N (必填)有效值域: UTF-8 字元,長度 < 50 |
| 機敏性 | L3 (Confidential / 機密) |
| 法遵法規標籤 | GDPR, PDPA (標記後,系統可自動觸發個資盤點報告) |
| 權威資料路徑 | hrdb.dbo.t_employee_master.emp_name |
這裡展示「參照屬性」的特殊性,它必須指向另一個標準。
| 元數據欄位 | 填寫內容 |
|---|---|
| 業務詞彙類型 | Reference Attribute (參照屬性) |
| 業務詞彙名稱 | Birth Country Code (出生國家代碼) |
| 參照屬性來源 | ISO Country Code (ISO 國家代碼標準)來源表:refdb.dbo.t_country_iso |
| 業務詞彙定義 | 員工出生地的國家代碼,採用 ISO 3166-1 alpha-3 標準。 |
| 業務詞彙品質規範 | 可否為空: Y (選填)有效值域: 必須存在於 ISO Country Code 標準清單中 (Referential Integrity)。 |
| 機敏性 | L3 (機密) (國籍可能涉及種族隱私) |
| 法遵法規標籤 | GDPR (Sensitive Personal Data) |
| 權威資料路徑 | hrdb.dbo.t_employee_master.birth_country_code |
透過上述的結構化定義,我們做到了兩件事:
有效值域 不再是寫給人看的文字,而是可以被轉換成 SQL 的驗證邏輯 (Data Quality Rules)。這就是為什麼我們堅持業務詞彙必須要有嚴謹的結構。因為只有結構化的元數據,才能驅動自動化的資料治理。