我們以前討論regression,談到phi的時候,只有講過一種,也就是多項式的基函數,今天跟大家介紹另外一種也是相當常用的基函數(phi),RBF(Radial basis function)也就是每一個phi的值是來自於該樣本點與一個中心的距離,寫成式子就是
我們就可以把我們用來預測的函數寫成
不過正如以前說過的,fitting的時候不考慮到noise的話,會導致一個overfitting的結果,所以我們要考慮noise進去,我們把每一個樣本點個別noise積起來再做最優化,可以得到
其中
可以發現新的預測值是把過去每一個資料點當成中心做出來的函數,這也被稱為Nadaraya-Watson,而我們可以從另一個角度推導出這個結論。
首先我們先以密度估計來對p(x,t)建模
其中 f 函數是計算分量密度的函數
有了這個密度估計之後,就可以kernel function表示回歸函數 y(x)
其中
而且這個模型也定義了預測分佈
利用這個模型,且使用Gaussian kernel我們可以得到這樣的結果
綠色是真正的線,紅色是我們預測的,粉紅色就是分佈範圍,藍色範圍則是每個資料點的kernel對應的標準差,而這樣的模型就是所謂kernel regression的一種。