【Day25】文組腦理解標籤的比例與圖形的特徵分佈

第 11 屆 iThome 鐵人賽

DAY 25

Google Developers Machine Learning

文組腦的機器學習異想世界系列第 25 篇

11th鐵人賽

fishliu84

2019-10-11 04:19:22

1386 瀏覽

分享至

哈囉大家好～今天看日出起個大早，就先來發文吧～～～
接續昨天！
我們需要有足夠能幫助我們進行預測的標籤，舉例來說，如果我們想要建立一個機器學習模型來預測金融交易的詐欺，但是我們手中的數據集中卻都不是欺詐的例子，我們的模型就沒辦法學習到如何預測欺詐，所以不管你輸入甚麼，最後都只會得到沒有交易詐欺的結果，實際上不太會發生這樣的狀況，比較容易發生的狀況是我們希望能預測的例子非常的少，不是我們要預測的例子非常的多，我們繼續用剛才的例子來說明，我們手中的數據集可能會有幾萬個沒有發生金融詐欺的例子(y=0)，以及幾千個有金融詐欺的例子(y=1)，我們使用這樣的數據分配非常極端的例子下去訓練我們的模型，效果也會非常的不好，我們可以複製金融詐欺的例子(y=1)，改善我們的模型。

除了標籤(y=0,1)要處理外，特徵也需要我們處理，基本的處理方式，是透過值方圖去看看某個特徵的比例，是不是特別少或有缺失值，我們使用資料視覺化方式觀察後，會決定我們要採取甚麼方式來處理我們的特徵。

那我們明天見～～～