在蒐集資料的過程中,可能會因測量方法、人為疏失或實驗誤差等,導致所蒐集到的資料中出現個別值極度異於其它資料的值,即為離群值(Outlier);離群值可能導致分析...
在Day14的文章中我們討論到判讀資料的偏態,當資料中離群資料比例很高,或平均值沒有代表性時,便可考慮使用以下面幾種方式去除偏態: 對數去偏 - 使用自然對數...
在Day04的文章中介紹了幾種常見可供替補N/A或離群值的數值,本日文章來實際操做,以Kaggle競賽Titanic: Machine Learning fro...