第 11 屆 iThome 鐵人賽

DAY 19

Google Developers Machine Learning

Google machine learning 學習筆記系列第 19 篇

【Day 19】 Google ML - Lesson 5 - 接下來幾天作為範例的「訓練資料集介紹」、範例「資料集訓練前分析」(順便補上整個ML訓練流程，作為系列文章中的訓練階段參考)

11th鐵人賽 #mlstudyjam

嗡嗡

2019-09-20 05:31:30

7074 瀏覽

分享至

前言

這幾天的文章會是一系列的，會需要一起看才比較能看懂整個ML模型的輪廓，
然而因為一天能寫的內容量有限，所以我會在前言部分稍微說明我寫到哪。

複習一下ML的整個訓練過程

因為ML模型的訓練階段章節內容會分很多部分，我們要先確認好自己在哪個階段，
以免吸收新內容卻不知道用在內容的什麼地方。

★ML的整個「訓練過程」：這裡以監督式學習(Supervised Learning)為例

階段	要做的事情	簡介
(`訓練前`)	決定資料集與分析資料	你想要預測的是什麼資料? 這邊需要先知道 `example`、`label`、`features`的概念。介紹可參考：【Day 15】，而我們這次作為範例的訓練資料集介紹在【Day 19】。
(`訓練前`)	決定問題種類	依據資料，會知道是什麼類型的問題。`regression problem(回歸問題)`? `classification problem(分類問題)`? 此處可參考：【Day 16】、與進階內容：【Day 17】
(`訓練前`)	決定ML模型(ML models)	依據問題的種類，會知道需要使用什麼對應的ML模型。`回歸模型(Regression model)`? `分類模型(Classification model)`? 此處可參考：【Day 18】，`神經網路(neural network)`? 簡介於：【Day 25】
	(模型裡面的參數)	ML模型裡面的`參數(parameters)`與`超參數(hyper-parameters)` 此處可參考：【Day 18】
(`訓練中`) 調整模型	評估當前模型好壞	`損失函數(Loss Functions)`：使用損失函數評估目前模型的好與壞。以`MSE(Mean Squared Error)`, `RMSE(Root Mean Squared Error)`, `交叉熵(Cross Entropy)`為例。此處可參考：【Day 20】
(`訓練中`) 調整模型	修正模型參數	以`梯度下降法 (Gradient Descent)`為例：決定模型中參數的修正「方向」與「`步長(step size)`」此處可參考：【Day 21】
(`訓練中`) 調整腳步	調整學習腳步	透過`學習速率(learning rate)`來調整ML模型訓練的`步長(step size)`，調整學習腳步。(此參數在`訓練前`設定，為`hyper-parameter`)。此處可參考：【Day 22】
(`訓練中`) 加快訓練	取樣與分堆	設定`batch size`，透過`batch`從訓練目標中取樣，來加快ML模型訓練的速度。(此參數在`訓練前`設定，為`hyper-parameter`)。與`迭代(iteration)`,`epoch`介紹。此處可參考：【Day 23】
(`訓練中`) 加快訓練	檢查loss的頻率	調整「檢查loss的頻率」，依據`時間(Time-based)`與`步驟(Step-based)`。此處可參考：【Day 23】
(`訓練中`) 完成訓練	(loop) -> 完成	重覆過程(評估當前模型好壞 -> 修正模型參數)，直到能`通過「驗證資料集(Validation)」的驗證`即可結束訓練。此處可參考：【Day 27】
(`訓練後`)	訓練結果可能問題	`「不適當的最小loss?」` 此處可參考：【Day 28】
(`訓練後`)	訓練結果可能問題	`欠擬合(underfitting)`?`過度擬合(overfitting)`? 此處可參考：【Day 26】
(`訓練後`)	評估 - 性能指標	`性能指標(performance metrics)`：以`混淆矩陣(confusion matrix)`分析，包含「`Accuracy`」、「`Precision`」、「`Recall`」三種評估指標。簡介於：【Day 28】、詳細介紹於：【Day 29】
(`訓練後`)	評估 - 新資料適用性	`泛化(Generalization)`：對於新資料、沒看過的資料的模型適用性。此處可參考：【Day 26】
(`訓練後`)	評估 - 模型測試	使用「`獨立測試資料集(Test)`」測試? 使用`交叉驗證(cross-validation)`(又稱`bootstrapping`)測試? 此處可參考：【Day 27】
	(資料分堆的方式)	(`訓練前`) 依據上方「模型測試」的方法，決定資料分堆的方式：訓練用(Training)、驗證用(Validation)、測試用(Test)。此處可參考：【Day 27】

而今天的文章我們也會先介紹並且稍微分析一下，接下來我們要用來作為訓練範例的資料集。

今天我們會繼續 Launching into Machine Learning 的第三章節~

Course - Launching into Machine Learning

第三章節的課程地圖：(紅字標記為本篇文章中會介紹到的章節)

Optimization
- Introduction to Optimization
  - Introduction
- Defining ML Models
  - Defining ML Models
  - Introducing the Natality Dataset
- Introducing Loss Functions
- Gradient Descent
  - Gradient Descent
  - Troubleshooting a Loss Curve
  - ML Model Pitfalls
- TensorFlow Playground
  - Lab: Introducing the TensorFlow Playground
  - Lab: TensorFlow Playground - Advanced
  - Lab: Practicing with Neural Networks
  - Loss Curve Troubleshooting
- Performance Metrics
  - Performance Metrics
  - Confusion Matrix
- Module Quiz

1. Introducing the Natality Dataset

課程地圖

Optimization
- Defining ML Models
  - Introducing the Natality Dataset

決定訓練資料集

簡單來說這邊就是要介紹接下來我們要作為示範訓練的資料集了，
資料集很重要的原因在於它可以直接影響我們要使用什麼「ML模型」。

我們這次要訓練的是一些關於新生兒的資料集。

問題情境：

有些嬰兒剛出生時會需要緊急護理，然而能提供這樣護理的醫生卻不多，
我們希望能夠妥善的分配醫生，使得真的有需求的嬰兒能得到需要的護理。

我們將這問題轉換為ML問題：

我們想預測的目標是，預測哪些嬰兒會需要醫生的照顧

再來我們來思考一下什麼東西能作為我們的參考的依據(feature)，
什麼東西能作為我們的訓練目標(label)，
假設這裡有三種資料：母親的年齡, 嬰兒的生日, 嬰兒的體重，哪些是能用的呢?

我們在這邊稍微題外話一下：

有些專業領域的知識，會告訴我們某些資料是不可能相關的，
例如(我任意舉例的)：能不能用一個人的身高、體重預測那個人的年齡?
我們應該都知道這個相關性是薄弱的，但在ML模型裡面我們就是想試著找看看關聯性。

但另外一個預測的重點，那就是這些資料要在我們想預測時，資料是「可取得的」。

回到剛剛上面問題的答案：

嬰兒的生日：我們必須要等嬰兒出生才能知道的資料，所以就是預測時還不可取得的資料。
嬰兒的體重：嬰兒的體重恰好就是嬰兒是否需要照護的重要指標之一。
母親的年齡：雖然不確定有沒有相關性，但母親的年齡確實是我們可以觀測的資料。

選擇好我們要使用的資料後，我們來想想我們剛剛所定義的問題：

我們想預測的目標是，預測哪些嬰兒會需要醫生的照顧，
也就是預測「寶寶的健康」，嬰兒的體重是「寶寶的健康」的參考指標之一
我們就先將我們想預測的目標(label)訂為實際數據的預測「嬰兒的體重」，
而「母親的年齡」可以做為我們參考的依據(feature)，
這個問題我們要預測的是「嬰兒的體重」，為連續值，
所以這是「回歸問題(regression problem)」。

再把資料丟進ML模型之前，我們通常還要先看一下這個資料是否可能存在某些特性，而非全部雜訊(noise)。
我們先觀察一下數據分布，我們將「母親的年齡」與「嬰兒的體重」做成了散佈圖。

而這個資料並不需要把全部的資料都拿來丟，我們只要取樣(sample)即可：

一方面是，全部的資料都丟，在計算上是不太合適的(太多資料)
另外一方面是，如果丟入大量資料，除了製圖困難，我們也很難解釋他

(這個資料來自BigQuery中的公開資料，為美國政府收集的natality data)

稍微注意一下，這些資料似乎有小的正相關性。
這邊我們還可以比較另外一張圖，我們一樣使用這兩種資料作為座標，
但這次我們不做散佈圖，我們將資料分成各個資料組的累積量。

先稍微比較一下兩者的特色：

圖的種類	`散佈圖(scatter plot)`	`資料組的累積圖`
介紹	使用一個個資料點呈現的方式，標記在圖上	使用資料累積的量所畫出的圖
資料取樣	需要`取樣(sample)`，所以不會用到全部的資料	使用全部的資料累積值，所以不需要取樣
代表性樣本	要擔心「非代表性樣本」的風險(指比較特殊的資料，不夠有代表性)
製圖結果	每次製圖結果可能不同(因為取樣)	每次製圖結果皆相同

這張圖是由一共22GB的資料所繪成，我們試著觀察一下裡面的關係，
這時我們就會發現，我們看見了一些散佈圖中看不出來的資訊。

我們發現，寶寶的體重似乎在母親年齡30歲左右達到最大值，
而隨著母親年齡的增長或減小，嬰兒體重逐漸減少。
這表示這組資料存在著「非線性」的關係，且在散佈圖中是觀察不出的關係。

但我們想基於昨天提到的線性模型(linear model)而分析他，似乎看起來不是那麼容易。
事實上，我們用線性模型(linear model)想去建立一個非線性函數(non-linear function)的模型，
這樣的例子有個名詞叫做欠擬合(underfitting)。

也許你可能會問為什麼不使用更複雜的模型來解這個問題? 這是因為這邊作為教學示範的原因。
而其他複雜的模型我們之後也會討論到，此外我們還會討論過度擬合(overfitting)的概念。
但簡單來說，隨著「模型的複雜度」增加，「訓練過程的失敗風險」也會增加。

我們回到原先題目的散佈圖，我們認為母親的年齡與嬰兒的體重成些微的正相關，
於是我們先將我們的直覺判斷，以「藍線」來模擬這個概念，
而決定藍線之後，我們再來想思考這條線是否應該要高還是更低? 斜率是否正確?
要怎麼樣去決定其他的線「紅、黃線」沒有比這條「藍線」好?

這邊先來個題外話一下：

有學過統計的人，可能會知道有個「least squares regression」的方法，他能夠幫助我們在線型模型(linear models)中決定最佳權重(weights)，這方法在這題目中也確實可行。
但問題在於這些解只能在「一定的數量規模」內使用，當數據量只要一大，為了解決問題使用統計方法的計算量就顯得不切實際。
那如果統計方法不行的話，這裡該怎麼辦?

我們可以使用「gradient descent(梯度下降法)」：

我們先考慮在空間中搜尋最佳化變數，
記得我們的線型模型(linear model)裡面有兩個變數，weight 和 bias。
因為這兩個數字都是實數，我們可以考慮將這兩個變數的每個組合想像成是2D空間中的一個點。

有這樣的想像後，我們要怎麼找到最佳解呢?