[Day 1]為什麼要做特徵選擇

第 12 屆 iThome 鐵人賽

DAY 2

AI & Data

12th鐵人賽

802 瀏覽

最近的任務就是從資料中提取出要因
所以要一直做特徵選擇的動作
那到底為什麼要做特徵選擇呢？

我認為一個好的模型就不能太複雜，要做到
以最少的東西，解釋最多的事情

為什麼不要讓模型過於複雜？
是因為越複雜的模型容易導致過擬和(overfitting)

你可以把「過擬和的模型」想像成一個書呆子
除了讀過的內容，其他事情都不太會舉一反三

而我們做模型的目的就是
觀察過去，預測未來
所以過度依賴過去資料的模型不是我們想要的

所以為了不讓模型過於複雜
若有些特徵跟我的存在感一樣
身邊的人都感覺不到，那這個特徵就可以捨棄了...

好啦....言歸正傳
我們認為有一個真正的函數 f_true
(很抱歉，不會在這裡打 Latex)
是這個函數 f_true 導致我們所觀察到的現象

我們的目標是依照所觀察到的變項(特徵)
構造一個我們可接受誤差內的函數 f_model
也就是說我們認為 f_model 在一定程度上接近 f_true

f_model 會受到我們所挑選的特徵影響
若希望所挑選的特徵總數不要太多
則如何挑選特徵才能使得** f_model 越來越靠近 f_true**
就成了特徵選擇的課題

從上文中就可以自然的接出下一個問題
我們如何去評估「兩個模型函數之間的差異」呢？

系列文

8 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

立即登入留言