還記得我前幾篇的主題-GIGO (垃圾進,垃圾出。)嗎?
這個概念也適用在訓練機器學習預測模型的結果中。當我們人類在前置準備(例如蒐集資料等)中有偏誤的時候,機器學習的結果也會有偏誤。
那會有哪些常見的偏誤呢?G社整理出了幾個容易忽視認知偏誤:
(至於不易忽視的部分就是大家本來就要極力避免的,所以G社沒有提 <- 我的大膽推論)
Reporting bias: 我們蒐集的資料很有可能來自於被蒐集的人刻意隱瞞部分資訊得來的。
(原文: In artificial intelligence research, the term reporting bias is used to refer to people's tendency to under-report all the information available. Underreport: fail to report (something) fully.)
Selection bias: 研究對象(資料蒐集的對象)選擇不當,所以怎麼做都是偏的(眷村民調的例子)。
Confirmation bias: 我們傾向關注、尋找、解釋和記憶能夠證實自身預想的信息,而忽視事實去支持自己的成見(比如說我們認為貓咪捕獵小動物給飼主,是因為貓咪要奉獻孝心;但其實是貓咪母愛大方認為飼主打獵能力太弱,要教教他打獵技巧)。
Automation bias: 就是我們很容易認為凡事自動化產生出來的東西就是對的,一定穩啦(比如說微軟系統說要你要更新系統,然後照著做就死亡藍屏了<- 隨便舉的例,想到更好的再改)。
在整個機器學習生產線上,有很多環節是我們會造成偏誤的地方,我們應該要時隨時注意避免產生這些認知偏誤,不然產生出來的模型也會有偏誤,造成決策上的失誤(公司project花了半年一年人力跟資金直接丟水溝之類的)。