接下來會以李宏毅老師在影片中講的例子來做說明整理。
尋找一個輸入為youtube後台資訊,輸出為該頻道隔天總點閱率的函式。
初步猜測函數的數學式為
: 今天頻道預測的總觀看人數
: 昨天頻道總觀看人數(已知)
: 未知參數
Model:
Feature:
Weight:
Bias:
假設 ,並將訓練資料的點閱人數帶入Model中,得出隔天預測的點閱人數 ,並與隔天實際點閱人數 相減得出, 為估測值與真實值的差距,再將所有誤差加總,得到損失函數 , 越大,代表這組參數 越不好,反之則越好。
假設只有 這個參數,代不同的 進去會得到不同的Loss,產生圖中曲線(error surface)。
隨機選取初始點
計算參數對Loss的微分,即為切線斜率
斜率為負:增加 的值
斜率為正:減少 的值
參數調整範圍大小取決於
超參數(hyperparameters):需自行設定、調整。
反覆進行前面的操作,即會找到解
需要注意的是梯度下降法有時會沒有辦法找到全域最佳解(global minima),可能會找到區域最佳解(local minima),根據初始點的不同有機率會找到不同的解。
重新回到考慮兩個參數的情況,跟上述一樣會先隨機選取初始點,再個別對Loss進行微分,並更新參數。