iT邦幫忙

2025 iThome 鐵人賽

DAY 27
0
生成式 AI

LLM 學習筆記 - 從 LLM 輸入問題,按下 Enter 後會發生什麼事?系列 第 27

Day 27. RELU & GELU:從數學看 Activation Function

  • 分享至 

  • xImage
  •  

在嘗試建立模型時,我們要先預選一個方程式的基底形狀,這個方程式需要一定程度可以描述足夠多元的形狀,但什麼樣的 function 才是足夠好的 function,用一個 sin, cos 可以嗎?

到底 Activation Function 原先想要達成什麼目的,以此為契機所以才有後續這些方程式的選擇。

從數學觀點,我們要能產生出一個足夠描繪此現實狀況且同時可以猜測到未來狀況的模型。現實狀況轉換成數學時,即便是單純的單變數環境 e.g. 從現在的觀看數來預測未來的觀看數,也有可能會有很複雜的線段特質(可以想像就跟股票的起伏一樣,即便只是價格走勢,線段也是每天起伏不定的曲線)

如果要找到一個單位 function 可以描述這些曲線,這個 function 應該會有以下特質:

  1. 他是一對一的,如果有一個值給進這個 function 卻可能會有多個相同結果,那可能沒辦法用來預測。
  2. 他也不能是線性的 TBC

Sigmoid

tanh

ReLU

GeLU


上一篇
Day 26. 線性代數:從數學再看一次 LLM 中的語言
系列文
LLM 學習筆記 - 從 LLM 輸入問題,按下 Enter 後會發生什麼事?27
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言