『Day9』資料品質

2023 iThome 鐵人賽

DAY 9

AI & Data

Data pipeline 建起來！用 Airflow 開發你的 Data pipeline系列第 9 篇

15th鐵人賽 data engineer python data profiling data science

無聊工程師 bored_engineer

2023-09-24 00:47:42

2155 瀏覽

分享至

在上一篇當中我們常常談到資料的品質，因為在資料處理的其中一個目的就是我們要提升資料的品質。那我們要如何判斷資料的品質呢？這篇想要來聊聊資料品質，幫助大家在實作 Data pipeline 的時候有很層面可以檢視資料的品質。根據 Gartner 的一份報告，不良的資料質量每年平均會給組織造成1290萬美元的損失，我們可以由此知道資料品質
的重要性。

資料品質 Data Quality

資料的品質可以根據一些維度來評估，這些維度依據 Data Source 的不同會不盡相同。以下是一些不同維度的質量參考指標：

完整性：資料的可用程度或完整程度。如果缺失值或是異常值的比例很高，那麽這組資料可能會產生出有偏見或誤導性的分析。
準確性：數據值與真實值有多接近。如果有多組相同標準的資料源，設定其中一組資料源為主要數據源，其他數據源可用於確認主要數據源的準確性。使用工具可以檢查每個資料源是否呈現相同方向的趨勢，如此增強對數據準確性的信心。更細部來看準確性又可以分為：語法準確性及語意準確性。語法準確性:數值可能是正確的，但它不屬於變量的正確域，語意準確性:數值在正確的域中，但它意義上是不正確的。
唯一性：是否存在重複的資訊。例如，當審查客戶數據時，每個使用者是否都有唯一的使用者ID。
一致性：此為度的評估評估不同資料集的資料記錄。如果有多個資料源有相同的標準。可以使用不同的資料源來檢查資料趨勢和行為的一致性。這個邏輯也可以應用於數據之間的關系。例如，學校的的學生數量不應超過學校的總人數。
有效性：這個維度衡量了資料是否符合任何業務規則所需的格式。格式通常包括有效的資料類型、資料範圍等等。
及時性：資料在預期時間範圍內的準備就緒程度。使用者期望在登記後立即收到序號，而這些資料需要實時生成。

這些指標可以幫助團隊在整個組織中進行資料質量的評估，以評估資料對於特定目的的實用性。

Data Quality vs Data Profiling

Data Profiling 是針對資料源統計並整理出資料來源的數據摘要一個過程。透過這些資料的整理資料，進一步的判斷資料的質量。Data Quality則是如同上一個段落所述，透過各樣維度的了解資料的品質。Data Profiling也常被使用用來評估資料品質。

Data Profiling 工具

為了要評估資料品質，我們常常會使用Data Profiling 工具來針對Data 進行簡單的分析。有許多相對應工具可以使用已達到期望的目的。由於我本身主要是以 Python 來開發，這邊介紹一些相關的 Library。如果不是寫 Python 的朋友也不用驚慌，不同語言的會有相對的函示庫可以使用。透過 Data Profiling 的工具檢測資料集的不同維度，進而認知並提升資料的品質。