iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 24
0

在資料中有哪些偏見會產生呢?讓我們看下去

文章:Fairness: Identifying Bias


  • Missing Feature Values:
    我們的數據擁有特徵(feature),當這個(些)特徵發現缺少大量示例的值,表這個數據資料中可能有某些特徵值沒有被表現出來。所以當發生有缺少時,要檢查是否資料發生的原因,以及這樣的原因是否會影響我們的結果。

  • Unexpected Feature Values:
    在瀏覽我們的資料集時,要檢查一下是否有一些極值,或是奇怪、不該存在的資料在裡面,因為那些資料會造成初期整理的時候就會造成影響,甚至模型訓練的時候造成誤差。

  • Data Skew:
    在數據資料中,發生了偏斜現象,就是說某些特徵相對於事實有所偏離,例如我們要算台北的房價,可能因為選擇交通方變得地方也就是捷運附近,但是其他地方沒有選擇,例如帝寶社區、陶朱隱園等等,就會算出來平均價格其實是低的。因此這樣的資料偏斜,也會造成模型訓練發生問題。


參考文章:【Day15】2rd:表現(Representation)


睫毛之聲:

光是資料就要處理好多,眼睛都花了/images/emoticon/emoticon06.gif


上一篇
【Day23】3rd:公平(Fairness)
下一篇
【Day25】3rd:Fairness-評估偏差(evaluating for bias)
系列文
Machine Learning(by Google)30

尚未有邦友留言

立即登入留言