iT邦幫忙

2025 iThome 鐵人賽

DAY 28
0
生成式 AI

LLM 學習筆記 - 從 LLM 輸入問題,按下 Enter 後會發生什麼事?系列 第 28

Day 28. Gradient Decent: 從數學再看一次梯度

  • 分享至 

  • xImage
  •  

當有了層層的 Activation 所疊加起來的模型敘述,數學提供了推測什麼樣結果是最佳的工具,我們將建立起來的模型與 Training Data 的正確解之間,建立一個 Loss Function,Loss Function 的本質很單純,是評估與正確值的距離 e.g. 在一個 y = wx + b 的方程式 $L(b,w)$ 用來瞭解這一組 parameter 是好還是不好的 function。

假設 $L(500,1)$ → $y=500 + 1x_1$ ,以此參數為例,代入 training data 來看結果,算出來是 $y=5300$ 但實際數字是 $\hat{y} = 4900$,所謂實際數字就是 training data 的正確解,則 $e_1 = |y-\hat{y}|=400$。

但這只是其中一組參數裡的其中一筆 training data 的結果,我們在這一組參數中,會透過一系列 training data 我們會得到 $e_1 ... e_N$。

先不論太多複雜的計算方式,我們就最簡單的將這些差加總取平均 $L = \frac{1}{N}\sum\limits_ne_n$ ,直觀的理解當這個 L 越大則代表這一個代入的 b, w 效果越差。接著,我們會重複各種 $L(b,w)$ 組合,但要怎麼決定下一個組合要選擇什麼呢?這在數學上,是一個最佳解問題,也就是 $w^, b^ = \arg\min\limits_{w,b}L$ (在所有參數中,找到能最小化 $L$ 的參數 $w$ 與 $b$)

TBC


上一篇
Day 27. RELU & GELU:從數學看 Activation Function
系列文
LLM 學習筆記 - 從 LLM 輸入問題,按下 Enter 後會發生什麼事?28
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言