Module2 start!
在這章將會學習如何最佳化model,以下為學習目標:
a.使用loss function去定量model表現
b.使用梯度下降來降低loss
c.梯度下降最佳化
d.使用performance metrics來做決策
ML 中 分parameter and hyper parameters: parameter是在training過程中會不斷調整的,hyperparameter是指在training就設定好的. 接著需要去回想 y = wx + b 這個線性模型,input是甚麼?weight?output?regression?claasification?這些在之前都講過了,這邊暫且跳過.
在做training前我們先決定了一個目標,然而在收集資料時,判斷資料是否有用會需要Domain knowledge,這點需要多注意,才能讓資料是有效的,更貼近預測可能性.
而在看資料時,有時候你用單純的點圖來看可能沒有幫助,因為你擁有太大筆data,這時你需要一點統計作圖的概念,你可以將圖轉換成能判讀出特徵或視覺上可以分析的樣子來判斷data的關聯性.並且在現實中問題往往是很複雜的,有很多原因組成,在收集到的data中你很難用 y = wx +b 這種簡單的模型來達到預測目的,因此你可能需要更多參數,所以你的方程式會變得複雜,一旦變得複雜你就需要loss func來幫助評估model.
Error = true value - predicted value
MSE(mean square error): 是其中一種衡量error的loss function.然而他卻不好解釋,因為她有根號,你很難跟人解釋單位,例如 kg的平方根是甚麼含意...因此出現了RMSE(root of mean square error).我們的目標就是要minimize這些loss function.
有了loss function的幫助我們可以輕易知道那些參數比較好,而不用自己吃力判讀統計圖表.然而RMSE也不是萬能,之前一樣有提到,在classification時RMSE就派不上用場.在classification時我們使用的是cross entropy, 在cross entropy的公式中分為positive term 和 negative term, 因此對於分類錯誤會造成較大的誤差值.而分類正確的誤差值較低.這非常合理.
接著我們的目標是找到最合適的參數來將降低誤差 -> next: gradient descent