哈囉大家好~~~
怎麼樣是好的特徵呢?
一個好的特徵必須與你的目標(你要解決的問題)有關聯,它必須是數字有足夠多的例子(不能都是遺漏值),還有一點,你需要用你自己對問題的見解來決定你要輸入的特徵。
首先,一個好的特徵需要與實際預測的內容相關,不要只是隨便亂扔數據,我自己在學習時就有經歷過,因為輸入到機器學習模型需要是數字,所以很多的名目變數要做轉換,最常見的就是性別的F跟M,需要轉換成0或1,當時我在資料清理上還非常不熟悉,就先將是數字的特徵都丟進模型內進行訓練,結果可想而知,成效並不佳,ML模型會被你餵進去的大量數據混淆,讓你的模型走偏。因此,我們要思考你的目標是甚麼?如果你是要找出預測哪一匹賽馬會贏,那麼特徵可能會使用有關品種和年齡的數據。但是,如果目標是確定馬是否容易得眼疾,你的特徵就會是眼睛顏色,真是天差地遠呢!下一篇我們繼續思考特徵與目標的關係。
那我們明天見~~~