【Day 24】 Google ML - Lab 4 - TensorFlow Playground - 讓我們在視覺化的網頁中體驗一下訓練ML模型吧！learning rate 改變對訓練過程的影響

11th鐵人賽 #mlstudyjam

嗡嗡

2019-09-25 22:54:00

4647 瀏覽

分享至

前言

這幾天的文章會是一系列的，會需要一起看才比較能看懂整個ML模型的輪廓，
然而因為一天能寫的內容量有限，所以我會在前言部分稍微說明我寫到哪。

複習一下ML的整個訓練過程

因為ML模型的訓練階段章節內容會分很多部分，我們要先確認好自己在哪個階段，
以免吸收新內容卻不知道用在內容的什麼地方。

★ML的整個「訓練過程」：這裡以監督式學習(Supervised Learning)為例

階段	要做的事情	簡介
(`訓練前`)	決定資料集與分析資料	你想要預測的是什麼資料? 這邊需要先知道 `example`、`label`、`features`的概念。介紹可參考：【Day 15】，而我們這次作為範例的訓練資料集介紹在【Day 19】。
(`訓練前`)	決定問題種類	依據資料，會知道是什麼類型的問題。`regression problem(回歸問題)`? `classification problem(分類問題)`? 此處可參考：【Day 16】、與進階內容：【Day 17】
(`訓練前`)	決定ML模型(ML models)	依據問題的種類，會知道需要使用什麼對應的ML模型。`回歸模型(Regression model)`? `分類模型(Classification model)`? 此處可參考：【Day 18】，`神經網路(neural network)`? 簡介於：【Day 25】
	(模型裡面的參數)	ML模型裡面的`參數(parameters)`與`超參數(hyper-parameters)` 此處可參考：【Day 18】
(`訓練中`) 調整模型	評估當前模型好壞	`損失函數(Loss Functions)`：使用損失函數評估目前模型的好與壞。以`MSE(Mean Squared Error)`, `RMSE(Root Mean Squared Error)`, `交叉熵(Cross Entropy)`為例。此處可參考：【Day 20】
(`訓練中`) 調整模型	修正模型參數	以`梯度下降法 (Gradient Descent)`為例：決定模型中參數的修正「方向」與「`步長(step size)`」此處可參考：【Day 21】
(`訓練中`) 調整腳步	調整學習腳步	透過`學習速率(learning rate)`來調整ML模型訓練的`步長(step size)`，調整學習腳步。(此參數在`訓練前`設定，為`hyper-parameter`)。此處可參考：【Day 22】
(`訓練中`) 加快訓練	取樣與分堆	設定`batch size`，透過`batch`從訓練目標中取樣，來加快ML模型訓練的速度。(此參數在`訓練前`設定，為`hyper-parameter`)。與`迭代(iteration)`,`epoch`介紹。此處可參考：【Day 23】
(`訓練中`) 加快訓練	檢查loss的頻率	調整「檢查loss的頻率」，依據`時間(Time-based)`與`步驟(Step-based)`。此處可參考：【Day 23】
(`訓練中`) 完成訓練	(loop) -> 完成	重覆過程(評估當前模型好壞 -> 修正模型參數)，直到能`通過「驗證資料集(Validation)」的驗證`即可結束訓練。此處可參考：【Day 27】
(`訓練後`)	訓練結果可能問題	`「不適當的最小loss?」` 此處可參考：【Day 28】
(`訓練後`)	訓練結果可能問題	`欠擬合(underfitting)`?`過度擬合(overfitting)`? 此處可參考：【Day 26】
(`訓練後`)	評估 - 性能指標	`性能指標(performance metrics)`：以`混淆矩陣(confusion matrix)`分析，包含「`Accuracy`」、「`Precision`」、「`Recall`」三種評估指標。簡介於：【Day 28】、詳細介紹於：【Day 29】
(`訓練後`)	評估 - 新資料適用性	`泛化(Generalization)`：對於新資料、沒看過的資料的模型適用性。此處可參考：【Day 26】
(`訓練後`)	評估 - 模型測試	使用「`獨立測試資料集(Test)`」測試? 使用`交叉驗證(cross-validation)`(又稱`bootstrapping`)測試? 此處可參考：【Day 27】
	(資料分堆的方式)	(`訓練前`) 依據上方「模型測試」的方法，決定資料分堆的方式：訓練用(Training)、驗證用(Validation)、測試用(Test)。此處可參考：【Day 27】

★小實驗系列：

文章	實驗內容
【Day 24】	TensorFlow Playground 的簡介與介面介紹
【Day 24】	`learning rate` 的改變對訓練過程的影響

而今天的文章我們先不討論新東西，我們來做點小實驗。

Course - Launching into Machine Learning

第三章節的課程地圖：(紅字標記為本篇文章中會介紹到的章節)

Optimization
- Introduction to Optimization
  - Introduction
- Defining ML Models
  - Defining ML Models
  - Introducing the Natality Dataset
- Introducing Loss Functions
- Gradient Descent
  - Gradient Descent
  - Troubleshooting a Loss Curve
  - ML Model Pitfalls
- TensorFlow Playground
  - Lab: Introducing the TensorFlow Playground
  - Lab: TensorFlow Playground - Advanced
  - Lab: Practicing with Neural Networks
  - Loss Curve Troubleshooting
- Performance Metrics
  - Performance Metrics
  - Confusion Matrix
- Module Quiz

1. Lab: Introducing the TensorFlow Playground

課程地圖

Optimization
- TensorFlow Playground
  - Lab: Introducing the TensorFlow Playground

所以，我們現在知道gradient descent是如何運作的，
我們現在先使用一些工具來看看這方法實際上運作會是怎麼樣。
你應該會看到很多我們之前有提到的現象。

TensorFlow Playground是一個非常強大的工具，
他能幫助我們視覺化neural networks是如何運作的。
(neural networks稍後章節我們就會介紹了)
事實上，我們現在所介紹的linear models就是一種簡化的neural networks
所以這個工具也很適合做linear models的視覺化呈現。

我們會用這個工具來證明我們前面所說的理論知識，可以使我們對ML更有直覺，
我們也會直接了解「設定learning rate」與ML模型是如何降低梯度的。

我也會指出這些內容與之後主題的關係，這些都會在之後的課程有更深入的探討。
首先，我們先看一下介面，
我們先刪除了某些工具的功能，因為他與我稍後將介紹的內容才有關係，
但依然有許多有趣的功能是我們可以使用的。

1.1. 介面介紹

首先，我們畫面框起來的指的是features，這些要給model看的inputs

在每一個box裡面的顏色代表的是feature的值，其中橘色代表負值、藍色代表正值，

然後這裡有個hidden layers的欄位，我們可以先當作這部分是代表權重(weights)，
我們可以透過「滑鼠靠近」來看這個些值是多少

隨著模型的訓練，這條線的寬度與不透明度會逐漸改變，
這樣的視覺化表示也方便我們能夠快速的理解他們的值。

在output column我們可以同時看見training data與我們的model現在預測的值，
以及所有的點在features space裡面的位置
我們也看到目前的training loss

這邊都會以「顏色」來表示值(features)

最上方的控制列包含著「重新設定訓練, 開始訓練, 執行單個步驟」的按鈕
還有一個可以下拉的列表，可以調整我們的learning rate

data欄位允許我們選擇不同的資料集，並且也能控制batch size的大小

1.2. 開始訓練

我們就先以訓練一個「linear model」來替我們分類資料開始吧!

這邊我們可以參考範例連結：https://goo.gl/EEuEGp

(這圖我另外截的XD，上面寫"Don’t Worry, You Can’t Break It. We Promise."滿有喜感的XD)
~~可惡，越是這樣講越讓我想嘗試玩壞看看~~

當我們點進連結後，我們就會看到TensorFlow Playground的介面，，
我們先介紹一下目前畫面上的配置(不用擔心沒有hidden layers的問題)，
在目前我們所看到的介面設定中，這個模型接受一個feature vector，
並與weight factor計算內積，再加上bias，
然後使用計算結果去建立決策邊界(decision boundary)。

因此我們可以將目前的配置視為linear model，
我們現在會開始訓練這個model，讓他去嘗試分類一些屬於兩大不同族群的資料。