【Day23】3rd：公平（Fairness）

第 11 屆 iThome 鐵人賽

DAY 23

Google Developers Machine Learning

Machine Learning（by Google）系列第 23 篇

11th鐵人賽 google machine learning machinelearning

eyelash*睫毛

2019-10-08 23:55:52

2151 瀏覽

分享至

人對於自己在意的東西都會有所偏頗，可能在給予資料的時候就在不知不覺中進行篩選。要如何維持中立，不偏頗呢？這就是本篇所要探討的重點。

文章：Fairness

在進行機器學習的時候，最怕人的干預，進而導致模型有偏差。因為機器沒有喜惡，當收到什麼資料就進行那些資料的解析與學習，但是人就不同了，可能會因為自己的喜惡，而在一開始給予資料的時候就進行篩選，所以就造成後面的錯誤。
為了避免這樣的事情發生，可以做以下的方法：

Consider the problem：思考一下，可能會被忽略的問題或是特點。
Ask experts：詢問專家，他們可以對我們手上的資料做檢視或是提供意見。
Train the models to account for bias：在訓練模型的時候也把偏差的資料一起納入。
Interpret outcomes：解釋結果，如果是人做的話會有什麼不同
Publish with context：如果要發佈，也一同發佈背後的資料，像是資料範本、使用了哪些方法，這樣做會有什麼影響等等。

而偏差的種類有分成這幾種，在進行時要特別注意：

報告偏差（Reporting Bias）：產生出來的報告本身就有偏差，所以導致後面處理也發生偏差。這是因為人們對於關注的事情會有興趣，進而產生誤差。像是餐廳的好吃與否，通常評論很熱烈的時候會有極度正評或是負評產生，中間值就變少，會造成與事實有偏差。
自動化偏差（Automation Bias）：人們總是覺得自動化出來的東西就是對的，但是有時候就是會發生問題，就好像程式碼經過Unit test後，理當不會有一些邏輯問題，但是他就是會發生。
選擇偏見（Selection Bias）：在選擇樣本的時候所造成的偏差
- Coverage bias：覆蓋率的偏差，在樣本採集時，沒有採集到其他樣本。像是在電話調查民調的時候，沒有抽到反對韓導的人，只有抽到贊同的，因此認為民意是100%支持。
- Non-response bias (or participation bias)：在收集過程中，資料取得沒有其意義。像是民調的時候覺得韓導哪邊做錯了，因為對他灰心喪智，所以都不肯說哪邊錯誤，而取得樣本都是覺得他很棒，這就是Non-response bias 。
- Sampling bias：沒有選擇隨機的抽取樣本。例如：根據排隊的人進行調查，這樣的再度購買機率本來就會很高。
小組歸因偏差（Group Attribution Bias）：將小個體的觀念套在大群體中。主要會有兩個偏見：
- In-group bias：就是會依照自己的觀點而套在別人身上。像是認為學電腦的薪水高，所以在計算低薪的時候，就不把電子、資訊人員的薪水一同計算。
- Out-group homogeneity bias：不同於自己的族群者，都被易分成一類。例如非電子、資訊都是低薪，所以把他們tag成「低薪階級」，然而像是進口貿易等等都比電子、資訊有錢。
隱性偏見（Implicit Bias）：因為自己的喜愛和經歷，而導致不知不覺中挑選了數據，而進行模型訓練。這樣的方式模型也不會順利完成。