iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 13
1
Google Developers Machine Learning

Machine Learning Day30系列 第 18

[Day18] 資料切分方法

  • 分享至 

  • xImage
  •  

通常想找一個Model的variance夠小和bias夠小,
達到一個trade-off(平衡),
如此可得到最小的testing error。

https://ithelp.ithome.com.tw/upload/images/20191012/20112568EDu5P4x7of.png

參考影片ML Lecture 2: Where does the error come from?
先將Training Set分兩群為Training Set和Validation Set,
得到最小Error的Modle 3,
再用全部Training Set和public Testing Set可能得到Error > 0.5,
如此private的Testing Set才會是真正的Error > 0.5。

資料切分方法,有分為以下兩種:

百分比 切分

通常用於資料量多,以33%分切分

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

K-fold 切分

通常用於資料量少,以下切分5等分,分別驗證取平均值

cross_val_score(estimator, train_X, train_Y, cv=5).mean()

https://ithelp.ithome.com.tw/upload/images/20191012/20112568p4ivbjkQwJ.png


切的等份和百分比,
通常需要視資料特性,
以經驗法則和try and error判斷。


以上,打完收工。


上一篇
[Day17] 機器學習三步驟
下一篇
[Day19] 線性迴歸VS羅吉斯迴歸
系列文
Machine Learning Day3026
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言