最近的任務就是從資料中提取出要因
所以要一直做特徵選擇的動作
那到底為什麼要做特徵選擇呢?
我認為一個好的模型就不能太複雜,要做到
以最少的東西,解釋最多的事情
為什麼不要讓模型過於複雜?
是因為越複雜的模型容易導致過擬和(overfitting)
你可以把「過擬和的模型」想像成一個書呆子
除了讀過的內容,其他事情都不太會舉一反三
而我們做模型的目的就是
觀察過去,預測未來
所以過度依賴過去資料的模型不是我們想要的
所以為了不讓模型過於複雜
若有些特徵跟我的存在感一樣
身邊的人都感覺不到,那這個特徵就可以捨棄了...
好啦....言歸正傳
我們認為有一個真正的函數 f_true
(很抱歉,不會在這裡打 Latex)
是這個函數 f_true 導致我們所觀察到的現象
我們的目標是依照所觀察到的變項(特徵)
構造一個我們可接受誤差內的函數 f_model
也就是說我們認為 f_model 在一定程度上接近 f_true
f_model 會受到我們所挑選的特徵影響
若希望所挑選的特徵總數不要太多
則如何挑選特徵才能使得** f_model 越來越靠近 f_true**
就成了特徵選擇的課題
從上文中就可以自然的接出下一個問題
我們如何去評估「兩個模型函數之間的差異」呢?