[Day 11] Validation

2019 iT 邦幫忙鐵人賽

DAY 11

AI & Data

跟著Google學ML系列第 11 篇

2019鐵人賽 machine learning

Joseph-bug

2018-10-11 23:01:42

5127 瀏覽

分享至

課前練習: Exam
Ref.: Validation

記得我們昨天講的Training set and test set，我們分成Training set 訓練model, 再用test set 測試model；效果不好的話再回去用training set訓練 model, 然後再用test set測試model；效果不好再試一次。每次每次的循環，讓test set過分暴露在眾目睽睽之下(這也是課前練習點出的問題)。

那怎麼辦？這邊多切了一個set: validation set。
Validation set

這邊要怎麼利用它呢? 我改了一下文章的圖，用流程圖說話:

這樣子，我們的test set可以視為新的資料，不會暴露在model裡太多次。反而是validation set重複去驗證model，驗證過了才使用test set，test set就是double-check的效果。

課後練習: Programming exercise
練習的部分可以注意一下 Task 2: Plot Latitude/Longitude vs. Median House Value的部分，你可能一開始會得到下面的分布圖：

有看到嗎？緯度的部分差很多，地圖分布也完全不一樣。這說明了我們原始資料有一定程度的順序，才會有這種結果。
把第一段code兩個註解拿掉：

# california_housing_dataframe = california_housing_dataframe.reindex(
#     np.random.permutation(california_housing_dataframe.index))

重跑一次，你就會看到會變成下面這樣：

是不是一致多了？

之後的task 4, task 5都有解答，就不再特別複製貼上囉。

[Day 10] Training set vs. test set

[Day 12] Representation

系列文

跟著Google學ML 共 30 篇

RSS系列文訂閱系列文

30 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

跟著Google學ML系列 第 11 篇