Data Verification 與 Data Quality 是發展十年以上的議題。Data Validation 這個詞彙,則是連美國都還在發展其定義與內涵。
而 Data Verification 與 Data Validation 的區別,因 Data Validation 涵義未定,目前在國外仍是各說各話中。
Data Verification 的例子:保險公司線上系統確認某用戶身分證字號符合資料庫紀錄。
Data Validation 的例子:保險公司線上系統審核某用戶的申請。
Data Validation(確效) 是屬於「研發階段」的程序,應該在新資料產品釋出前進行檢驗,依據資料產品規格檢驗其「效用」,例如該資料產品是「設計」用來訓練高風險交易檢測模型的,是否如預期合用。Data Verification(驗證) 是屬於「製造階段」的程序,於資料產品釋出後,週期量產新資料時,應該檢驗每批資料的「品質穩定」。簡言之,我認為他們的區別近似 Quality Assurance 與 Quality Check:
軟體界是不太講 Quality Check 的,這是製造業比較常用的品質方法。
說來奇妙,我是最近三年才陸續發現這幾個詞彙:
我的創業是從產品公司到專案公司,七年前我曾經以為應該沒有機會再回到產品研發領域。然而,我的兩段歷練卻逐漸顯現有需要結合在一起的態勢。
資料專案必須引用產品設計與研發方法。
在 BI 與 ETL 時代,資料處理都是專案專用,因此不存在另外做 Data Validation 的必要。到了數位轉型時代,想把資訊系統改變為「資料驅動」,資料必須成為「資料產品」才能在企業內共用。又因為「資料產品」的泛用性越廣效益越大,因此又必須有品質保證手段。
資料的世界真的非常有趣,兼具研發與製造屬性。
大家可以參考看看用在資料領域合不合理。
圖片來源:https://www.easterbrook.ca/steve/2010/11/the-difference-between-verification-and-validation/
圖片來源:https://www.easterbrook.ca/steve/2010/11/the-difference-between-verification-and-validation/