iT邦幫忙

第 12 屆 iT 邦幫忙鐵人賽

DAY 2
0

最近的任務就是從資料中提取出要因
所以要一直做特徵選擇的動作
那到底為什麼要做特徵選擇呢?

我認為一個好的模型就不能太複雜,要做到
以最少的東西,解釋最多的事情


為什麼不要讓模型過於複雜?
是因為越複雜的模型容易導致過擬和(overfitting)

你可以把「過擬和的模型」想像成一個書呆子
除了讀過的內容,其他事情都不太會舉一反三

而我們做模型的目的就是
觀察過去,預測未來
所以過度依賴過去資料的模型不是我們想要的

所以為了不讓模型過於複雜
若有些特徵跟我的存在感一樣
身邊的人都感覺不到,那這個特徵就可以捨棄了...


好啦....言歸正傳
我們認為有一個真正的函數 f_true
(很抱歉,不會在這裡打 Latex)
是這個函數 f_true 導致我們所觀察到的現象

我們的目標是依照所觀察到的變項(特徵)
構造一個我們可接受誤差內的函數 f_model
也就是說我們認為 f_model 在一定程度上接近 f_true

f_model 會受到我們所挑選的特徵影響
若希望所挑選的特徵總數不要太多
則如何挑選特徵才能使得** f_model 越來越靠近 f_true**
就成了特徵選擇的課題


從上文中就可以自然的接出下一個問題
我們如何去評估「兩個模型函數之間的差異」呢?


上一篇
[Day 0]學渣要出發:動機與預計內容
下一篇
[Day 2]什麼是信息熵
系列文
主管可能很機車,但數學不會,數學不會就是不會:盡學渣之力說數學原理30

尚未有邦友留言

立即登入留言