在上一篇當中我們常常談到資料的品質,因為在資料處理的其中一個目的就是我們要提升資料的品質。那我們要如何判斷資料的品質呢?這篇想要來聊聊資料品質,幫助大家在實作 Data pipeline 的時候有很層面可以檢視資料的品質。根據 Gartner 的一份報告,不良的資料質量每年平均會給組織造成1290萬美元的損失,我們可以由此知道資料品質
的重要性。
資料的品質可以根據一些維度來評估,這些維度依據 Data Source 的不同會不盡相同。以下是一些不同維度的質量參考指標:
完整性:資料的可用程度或完整程度。如果缺失值或是異常值的比例很高,那麽這組資料可能會產生出有偏見或誤導性的分析。
準確性:數據值與真實值有多接近。如果有多組相同標準的資料源,設定其中一組資料源為主要數據源,其他數據源可用於確認主要數據源的準確性。使用工具可以檢查每個資料源是否呈現相同方向的趨勢,如此增強對數據準確性的信心。更細部來看準確性又可以分為:語法準確性及語意準確性。語法準確性:數值可能是正確的,但它不屬於變量的正確域,語意準確性:數值在正確的域中,但它意義上是不正確的。
唯一性:是否存在重複的資訊。例如,當審查客戶數據時,每個使用者是否都有唯一的使用者ID。
一致性:此為度的評估評估不同資料集的資料記錄。如果有多個資料源有相同的標準。可以使用不同的資料源來檢查資料趨勢和行為的一致性。這個邏輯也可以應用於數據之間的關系。例如,學校的的學生數量不應超過學校的總人數。
有效性:這個維度衡量了資料是否符合任何業務規則所需的格式。格式通常包括有效的資料類型、資料範圍等等。
及時性:資料在預期時間範圍內的準備就緒程度。使用者期望在登記後立即收到序號,而這些資料需要實時生成。
這些指標可以幫助團隊在整個組織中進行資料質量的評估,以評估資料對於特定目的的實用性。
Data Profiling 是針對資料源統計並整理出資料來源的數據摘要一個過程。透過這些資料的整理資料,進一步的判斷資料的質量。Data Quality則是如同上一個段落所述,透過各樣維度的了解資料的品質。Data Profiling也常被使用用來評估資料品質。
為了要評估資料品質,我們常常會使用Data Profiling 工具來針對Data 進行簡單的分析。有許多相對應工具可以使用已達到期望的目的。由於我本身主要是以 Python 來開發,這邊介紹一些相關的 Library。如果不是寫 Python 的朋友也不用驚慌,不同語言的會有相對的函示庫可以使用。透過 Data Profiling 的工具檢測資料集的不同維度,進而認知並提升資料的品質。
Reference:
https://www.ibm.com/topics/data-quality#:~:text=the%20next%20step-,What%20is%20data%20quality%3F,governance%20initiatives%20within%20an%20organization
https://www.quanthub.com/validating-data-with-python-ensuring-integrity-in-your-data-pipeline/
https://atlan.com/open-source-data-quality-tools/
為了要評估資料品質,我們常常會使用Data Profiling 工具來針對Data 進行簡單的。
這邊好像沒講完~
已經補上囉,感謝大大耐心地閱讀文章~
謝謝!