哈囉大家好~今天看日出起個大早,就先來發文吧~~~
接續昨天!
我們需要有足夠能幫助我們進行預測的標籤,舉例來說,如果我們想要建立一個機器學習模型來預測金融交易的詐欺,但是我們手中的數據集中卻都不是欺詐的例子,我們的模型就沒辦法學習到如何預測欺詐,所以不管你輸入甚麼,最後都只會得到沒有交易詐欺的結果,實際上不太會發生這樣的狀況,比較容易發生的狀況是我們希望能預測的例子非常的少,不是我們要預測的例子非常的多,我們繼續用剛才的例子來說明,我們手中的數據集可能會有幾萬個沒有發生金融詐欺的例子(y=0),以及幾千個有金融詐欺的例子(y=1),我們使用這樣的數據分配非常極端的例子下去訓練我們的模型,效果也會非常的不好,我們可以複製金融詐欺的例子(y=1),改善我們的模型。
除了標籤(y=0,1)要處理外,特徵也需要我們處理,基本的處理方式,是透過值方圖去看看某個特徵的比例,是不是特別少或有缺失值,我們使用資料視覺化方式觀察後,會決定我們要採取甚麼方式來處理我們的特徵。
那我們明天見~~~