進入Q4希望能夠< 5章內講完。
機器學習與人類的偏見、偏誤(Bias),這邊特別強調"人類",因為,根據不同的機器學習模型,統計上也會有針對模型去探討的Bias。而這邊所探討的是產生資料的源頭導致的Bias,若沒有在處理資料的時候意識到這件事情,最終產生的模型將隱藏嚴重的問題!
以下簡單列出三種,由於不同的行為讓資料集產生Bias的原因:
互動上的偏誤,這邊著重於人類與蒐集資料的介面間互動的方式,導致可能產生的偏誤。
影片中舉例而言,在日前非常紅的畫圖給電腦猜的網頁遊戲中,當題目是"鞋子",大部分的人可能會畫出布鞋的形狀,但是高跟鞋、溜冰鞋等其他形狀差異較大的鞋類,對於機器而言就會是Bias,而不會被認為是鞋子。
以設計產品應用程式的介面來看,介面的設計方式可能會影響或是引導使用者的使用習慣,那麼若是蒐集資料和分析資料的人沒有意識到這點,從資料中所推論出的結論就會與事實產生差異。
隱藏的偏誤,這類型的偏誤可能因為文化、歷史或一些根生於生活中的習性導致。
Google舉的例子是訓練過往物理學家的圖片,由於許多因素:歷史、教育、制度等等,過去偉大的歷史學家中可能男性佔據大多數,那麼機器學習模型依此去訓練後,極有可能會加"男性"的因素作為重要的考量因子,產生的結果就有機會讓人感到"性別歧視"。
根據上面的例子,不理解機器學習的人們就會指責你,創造出了極端主義又具有性別偏見AI,然而事實卻是,機器學習的模型只是針對資料去顯示出之間的關聯性。
選擇的偏誤,這項偏誤往往是蒐集資料集的人造成的,可能是蒐集的資料不夠廣泛,或者受限在某些區域,所以資料不夠全面。
Google舉的例子是從社群網站或自己的照片圖庫中蒐集的照片,若是要拿來訓練人臉辨識的模型,可能會不夠全面(e.g. 人種、年紀等)。
這三種偏誤儘管由於不同的行為產生,但都是因為資料集內容的缺陷導致會訓練出錯誤的模型,所以,無論是在蒐集資料的時候,或者分析資料的時候,都要注意資料集內是否有異樣,這時domain knowledge就非常重要了,對於該領於的充分理解,就能迅速發現這些問題解決他們。