iT邦幫忙

2023 iThome 鐵人賽

DAY 9
0

在上一篇當中我們常常談到資料的品質,因為在資料處理的其中一個目的就是我們要提升資料的品質。那我們要如何判斷資料的品質呢?這篇想要來聊聊資料品質,幫助大家在實作 Data pipeline 的時候有很層面可以檢視資料的品質。根據 Gartner 的一份報告,不良的資料質量每年平均會給組織造成1290萬美元的損失,我們可以由此知道資料品質
的重要性。

資料品質 Data Quality

資料的品質可以根據一些維度來評估,這些維度依據 Data Source 的不同會不盡相同。以下是一些不同維度的質量參考指標:

  • 完整性:資料的可用程度或完整程度。如果缺失值或是異常值的比例很高,那麽這組資料可能會產生出有偏見或誤導性的分析。

  • 準確性:數據值與真實值有多接近。如果有多組相同標準的資料源,設定其中一組資料源為主要數據源,其他數據源可用於確認主要數據源的準確性。使用工具可以檢查每個資料源是否呈現相同方向的趨勢,如此增強對數據準確性的信心。更細部來看準確性又可以分為:語法準確性及語意準確性。語法準確性:數值可能是正確的,但它不屬於變量的正確域,語意準確性:數值在正確的域中,但它意義上是不正確的。

  • 唯一性:是否存在重複的資訊。例如,當審查客戶數據時,每個使用者是否都有唯一的使用者ID。

  • 一致性:此為度的評估評估不同資料集的資料記錄。如果有多個資料源有相同的標準。可以使用不同的資料源來檢查資料趨勢和行為的一致性。這個邏輯也可以應用於數據之間的關系。例如,學校的的學生數量不應超過學校的總人數。

  • 有效性:這個維度衡量了資料是否符合任何業務規則所需的格式。格式通常包括有效的資料類型、資料範圍等等。

  • 及時性:資料在預期時間範圍內的準備就緒程度。使用者期望在登記後立即收到序號,而這些資料需要實時生成。

這些指標可以幫助團隊在整個組織中進行資料質量的評估,以評估資料對於特定目的的實用性。

Data Quality vs Data Profiling

Data Profiling 是針對資料源統計並整理出資料來源的數據摘要一個過程。透過這些資料的整理資料,進一步的判斷資料的質量。Data Quality則是如同上一個段落所述,透過各樣維度的了解資料的品質。Data Profiling也常被使用用來評估資料品質。

Data Profiling 工具

為了要評估資料品質,我們常常會使用Data Profiling 工具來針對Data 進行簡單的分析。有許多相對應工具可以使用已達到期望的目的。由於我本身主要是以 Python 來開發,這邊介紹一些相關的 Library。如果不是寫 Python 的朋友也不用驚慌,不同語言的會有相對的函示庫可以使用。透過 Data Profiling 的工具檢測資料集的不同維度,進而認知並提升資料的品質。

Reference:
https://www.ibm.com/topics/data-quality#:~:text=the%20next%20step-,What%20is%20data%20quality%3F,governance%20initiatives%20within%20an%20organization
https://www.quanthub.com/validating-data-with-python-ensuring-integrity-in-your-data-pipeline/
https://atlan.com/open-source-data-quality-tools/


上一篇
『Day8』 資料處理
下一篇
『Day10』 如何設計實作 Data pipeline
系列文
Data pipeline 建起來!用 Airflow 開發你的 Data pipeline30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
hlb
iT邦新手 5 級 ‧ 2023-11-05 15:25:41

為了要評估資料品質,我們常常會使用Data Profiling 工具來針對Data 進行簡單的。

這邊好像沒講完~

已經補上囉,感謝大大耐心地閱讀文章~

hlb iT邦新手 5 級 ‧ 2023-11-16 10:31:17 檢舉

謝謝!

我要留言

立即登入留言