iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 27
0

Ref.: Fairness

Google Machine Learning Crash Course在這一個月內很像很明顯的改版了兩次,多了一些類別,而且多了這個主題 Fairness。

簡體中文還沒翻譯喔,習慣切去簡體中文的各位要痛苦了。

這邊主要是為了公平性,列出一些bias,但這邊列的bias並沒有所有都列進來,可以參考wiki bias種類。識別bias很重要,攸關到你的model訓練過程跟預測結果。

Reporting Bias

資料的頻率或屬性沒有正確反映出現實世界的樣子,通常是因為把焦點放在特別不尋常或特別難忘上面。

如果我們Training data都是一些非常喜歡或非常討厭的data,對於立場中立的資料其預測正確性就會很差。

Automation Bias

只喜歡自動化系統的結果,而忽略了人為判斷的資料。

工程師用工程師思維去設計一個model,到最後發現判斷結果precision, recall比人為判斷還差

選擇偏差Selection Bias

選擇example時的方法跟真實世界的分布不一樣時會發生,又可以分成三種:

Coverage bias

選擇的過程不是透過有代表性的方法完成,太收斂至某個群體。

像是預測新手機的銷售量,但training data不包含買競爭者商品的使用者。

Non-response bias(或稱participation bias)

在資料收集的過程中,因參與差距使的資料最後變成不具代表意義

像是預測新手機的銷售量,雖有買競爭者產品跟買自家產品的使用者,但80%買競爭者的產品沒有完成整個資料收集的過程。

取樣偏差Sampling bias

資料收集時沒有使用適當的隨機取樣方法。

像是預測新手機的銷售量,雖有買競爭者產品跟買自家產品的使用者,但最後選擇的資料是前200個完成收集過程的人,前200個人很可能是自家產品的忠實粉絲。

Group Attribution Bias

對群體有一些先入為主的想法,因而選擇時造成資料偏差

In-group bias

只喜歡自己所在的群體、或跟自己有相同特性的群體

某學校畢業的只喜歡某學校畢業的人,覺得他們比較適合這個工作

Out-group homogeneity bias

對跟自己沒關的團體有些刻板印象

資工背景的覺得其他非資工畢業的不夠專業

Implicit Bias

依照自己的個人經驗或心智模型為依據,但不夠通盤的看整體可能性。

搖頭當成說去訓練model,卻忽略了有些文化可能搖頭是說

Confirmation bias

Implicit Bias最常見的形式,模型建立者不知不覺用預先存在的信念或假設去處理資料。

Experimenter's bias

模型建立者反覆訓練model直到結果跟自己想的一樣。

討厭貴賓狗的人,在訓練寵物狗是否溫順時,一直訓練到model預測貴賓狗是野蠻為止。

OK,這邊列出了很多種bias,記得,並不是全部,要全部請看wiki


上一篇
[Day 26] Data Dependencies
下一篇
[Day 28] Fairness(下)
系列文
跟著Google學ML30

尚未有邦友留言

立即登入留言