iT邦幫忙

第 11 屆 iT 邦幫忙鐵人賽

DAY 23
0

人對於自己在意的東西都會有所偏頗,可能在給予資料的時候就在不知不覺中進行篩選。要如何維持中立,不偏頗呢?這就是本篇所要探討的重點。

文章:Fairness


在進行機器學習的時候,最怕人的干預,進而導致模型有偏差。因為機器沒有喜惡,當收到什麼資料就進行那些資料的解析與學習,但是人就不同了,可能會因為自己的喜惡,而在一開始給予資料的時候就進行篩選,所以就造成後面的錯誤。
為了避免這樣的事情發生,可以做以下的方法:

  • Consider the problem:思考一下,可能會被忽略的問題或是特點。
  • Ask experts:詢問專家,他們可以對我們手上的資料做檢視或是提供意見。
  • Train the models to account for bias:在訓練模型的時候也把偏差的資料一起納入。
  • Interpret outcomes:解釋結果,如果是人做的話會有什麼不同
  • Publish with context:如果要發佈,也一同發佈背後的資料,像是資料範本、使用了哪些方法,這樣做會有什麼影響等等。

而偏差的種類有分成這幾種,在進行時要特別注意:

  • 報告偏差(Reporting Bias):產生出來的報告本身就有偏差,所以導致後面處理也發生偏差。這是因為人們對於關注的事情會有興趣,進而產生誤差。像是餐廳的好吃與否,通常評論很熱烈的時候會有極度正評或是負評產生,中間值就變少,會造成與事實有偏差。
  • 自動化偏差(Automation Bias):人們總是覺得自動化出來的東西就是對的,但是有時候就是會發生問題,就好像程式碼經過Unit test後,理當不會有一些邏輯問題,但是他就是會發生。
  • 選擇偏見(Selection Bias):在選擇樣本的時候所造成的偏差
    • Coverage bias:覆蓋率的偏差,在樣本採集時,沒有採集到其他樣本。像是在電話調查民調的時候,沒有抽到反對韓導的人,只有抽到贊同的,因此認為民意是100%支持。
    • Non-response bias (or participation bias):在收集過程中,資料取得沒有其意義。像是民調的時候覺得韓導哪邊做錯了,因為對他灰心喪智,所以都不肯說哪邊錯誤,而取得樣本都是覺得他很棒,這就是Non-response bias 。
    • Sampling bias:沒有選擇隨機的抽取樣本。例如:根據排隊的人進行調查,這樣的再度購買機率本來就會很高。
  • 小組歸因偏差(Group Attribution Bias):將小個體的觀念套在大群體中。主要會有兩個偏見:
    • In-group bias:就是會依照自己的觀點而套在別人身上。像是認為學電腦的薪水高,所以在計算低薪的時候,就不把電子、資訊人員的薪水一同計算。
    • Out-group homogeneity bias:不同於自己的族群者,都被易分成一類。例如非電子、資訊都是低薪,所以把他們tag成「低薪階級」,然而像是進口貿易等等都比電子、資訊有錢。
  • 隱性偏見(Implicit Bias):因為自己的喜愛和經歷,而導致不知不覺中挑選了數據,而進行模型訓練。這樣的方式模型也不會順利完成。

睫毛之聲:
果然程式只是小部分,很大的部份是在資料上。
這篇是著重於資料因為人的關係而有誤差,以有部分非理性的成份在,因此需要警惕自己,東西、資料都在軌道上。


上一篇
【Day22】3rd:數據依賴關係(Data Dependencies)
下一篇
【Day24】3rd:Fairness之確定偏見(Identifying Bias)
系列文
Machine Learning(by Google)30

尚未有邦友留言

立即登入留言