iT邦幫忙

2023 iThome 鐵人賽

DAY 19
0
AI & Data

30天成為資料分析師-手把手R語言與資料分析教學系列 第 19

[Day19] 資料分析-遺失值(missing value)處理

  • 分享至 

  • xImage
  •  

有在做資料分析的朋友,應該很常發生拿到資料不完整的情況,尤其當資料屬於人工維護時,品質會相對比較差,也較容易出現該填寫的地方卻是空值的問題,今天我們就要來針對遺失值進行探討

以下是根據自身經驗常使用的遺失值處理方法,若有誤用的地方也歡迎指教

  1. 移除整筆資料
  2. 插補平均數、中位數、眾數
  3. 將遺失值分成一類(適用類別型變數)
  4. 取一筆最相似的資料做插補(熱卡插補)
  • 移除整筆資料
    當遺失值是少數的時候,可以選擇移除整筆資料,因為是少數,所以不會影響整個資料的分布

  • 插補平均數(mean)、中位數(median)、眾數(mode)

    • 平均數: 遺失值很少的時候也可以選擇這種插補法,當資料屬於常態分佈時,可以選擇用平均數做插補,不過資料的變異數也會因此變小
    • 中位數: 資料屬於偏態的時候,可以選擇使用中位數插補
    • 眾數: 在類別型的欄位,可以使用眾數來做插補
  • 將遺失值分成一類(適用類別型變數)
    另一種類別型欄位的插補方式,可以將所有的遺失值分成另一類,通常會插補不常見的值,例如: -1或999

  • 取一筆最相似的資料做插補(熱卡插補)
    根據其他變數當作輔助,找到其他相似的完整資料,並使用該藍未來做插補。

還有其他像是迴歸、ML的插補方法,因為前面尚未介紹過這些方法,因此在本篇不贅述


上一篇
[Day 18] R語言- ggplot2與plotly套件執行視覺化圖表(2)
下一篇
[Day20] 資料分析-相關係數(correlation coefficient)
系列文
30天成為資料分析師-手把手R語言與資料分析教學30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言