接下來會以李宏毅老師在影片中講的例子來做說明整理。
尋找一個輸入為youtube後台資訊,輸出為該頻道隔天總點閱率的函式。
初步猜測函數的數學式為  : 今天頻道預測的總觀看人數
 : 昨天頻道總觀看人數(已知)
 : 未知參數
Model: 
Feature: 
Weight: 
Bias: 
假設 ,並將訓練資料的點閱人數帶入Model中,得出隔天預測的點閱人數 
,並與隔天實際點閱人數 
 相減得出
,
 為估測值與真實值的差距,再將所有誤差加總,得到損失函數 
,
 越大,代表這組參數 
 越不好,反之則越好。


假設只有  這個參數,代不同的 
 進去會得到不同的Loss,產生圖中曲線(error surface)。
隨機選取初始點 
計算參數對Loss的微分,即為切線斜率
斜率為負:增加  的值
斜率為正:減少  的值

參數調整範圍大小取決於
超參數(hyperparameters):需自行設定、調整。
反覆進行前面的操作,即會找到解
需要注意的是梯度下降法有時會沒有辦法找到全域最佳解(global minima),可能會找到區域最佳解(local minima),根據初始點的不同有機率會找到不同的解。
重新回到考慮兩個參數的情況,跟上述一樣會先隨機選取初始點,再個別對Loss進行微分,並更新參數。