Day 4 Inclusive ML(包括於機器學習的小技巧)

11th鐵人賽

paul_wang

2019-09-20 10:38:58

1557 瀏覽

分享至

How Google does Machine Learning

Inclusive ML

模型評判

今天來談談如何驗證我們的模型好壞吧，評斷模型的好壞有很多種方式，在此次課程中的第二章節會仔細的介紹，包含我們今天要講到的混淆矩陣，混淆矩陣最簡單的想法就是把對的講成對與錯的機率、錯的講成對與錯的機率畫在一張表內，讓人一眼就可以看出來機器對於哪些問題是會誤判的。
依照下面這張圖來矩例好了，我今天想要判別人或是不是人，人是positive，不是人是negative，今天左上角的小女孩跟右下角的熊很容易就被判別出來他們的身分，但我們來看看右上角跟左下角，左下角非常明顯是一個雕像啊，人眼很容易就判斷出來，但機器不知道，他只是利用雕像的特徵覺得他長得很像一個人所以就把他判斷成positive；而右上角呢?人類可以很明顯的判別出來他是一個把臉包起來的人，但機器一樣沒有人類那麼聰明啊，他沒看到有關臉部的特徵就覺得他是negative，說到這裡人類還是有贏機器的地方啊哈哈哈。

而有很多公式能夠證明出這個機器學習的好壞下面我就依照上述這個表舉一些公式，第一個就是FNR，這個公式可以看成我在Labels都是positive的狀況下我機器認錯的機率為多少；第二個就是FPR，這個公式可以看成我在Model預測positive的狀況下我實際上我Labels是negative的機率。講者在投影片中只講到這兩個公式，這邊我補充一個網站給大家，如果對於往後要做實驗或是寫論文需要參考到有關的公式可以在這做查詢。

設定 threshold

那接下來就來說說如何讓模型有一套標準去評斷一項問題吧，直接講答案，就是設定threshold，中文叫閥值的樣子，用下面這張圖來做解釋，這是一個有關銀行借貸的問題，如果我是銀行我會希望當然從我本身同意借款又會還我錢的人為優先考量。
假設我把threshold放到左邊那條直線是不是把一些我本來就不會借款的人包含進去了呢?
如果是放到右邊那條直線，那又有幾個人能達到我的要求呢?
最好的方法就是取一個合適的threshold請機器幫我過濾掉銀行完全不借款的人後，在這中間再去做篩選對銀行業是最快速的方法啊。

接著如果是不同族群呢?銀行要怎麼面對這個問題，全台灣有那麼多銀行在進行借貸放款的業務，南北行情不論是人數、收入、借貸需求都不一樣，那麼多
族群我們不能再用同一套去找尋他們之間的標準，最好的方式就是依照數據顯示出來的結果來進行threshold的設定，不然若兩個一樣的族群我都設定一樣的標準，銀行的業務不是爆多就是爆少；如何利用一個模型將所有資訊包含其中，我想這是大家比較希望的結果，並不是有新的客戶我就必須重新訓練一個模型，我想這並不是一個長久之計。