iT邦幫忙

2025 iThome 鐵人賽

DAY 4
0
生成式 AI

30天從不認識生成式AI到好像稍微可能有點熟悉的過程系列 第 4

Day 04 . 用簡單例子解釋Transformer 與 Attention(不是新牛仔褲的歌)

  • 分享至 

  • xImage
  •  

Transformer是啥?
Transformer 是一種 深度學習模型架構,在 2017 年由 Google 團隊在論文《Attention is All You Need》中提出,被設計用來解決「如何在處理長文字時,同時理解上下文」的問題。
在這之前的傳統的 RNN(循環神經網路)一次只能處理一個字,所以一旦句子或文章越長,越容易忘掉前面講過的內容。
與之相比,Transformer 則是一次看整句話、整篇文,並計算句子中每個詞和其他詞的關係。


Attention 是啥?
Attention 是 Transformer 架構裡最重要的元素之一,它是用來「計算在一堆資訊裡,哪些部分對當前查詢最重要」的方法。
並利用 Query、Key、Value 三組向量,計算 Query 與每個 Key 的相似度,再用這些分數加權 Value,找出一篇文章中的重點。
Query(查詢):代表目前模型「想知道的東西」。
Key(索引):每個詞的標籤,描述它的特性。
Value(內容):這個詞實際攜帶的資訊。


假設我們現在在看一篇文章標題是「今日的 AI 趨勢」,裡面的內容寫到:
「今日 AI 技術飛速成長。
ChatGPT 帶動了生成式 AI 的熱潮。
網民玩的不亦樂乎。」
當我們要模型回答出「是誰帶動了生成式 AI 的熱潮?」時,Attention會做這幾件事:
1.找出句子裡所有詞彙。
2.判斷每個詞和問題的「關聯性」。
3.對比較相關的詞給較高的權重,其他則比較少。
像是「ChatGPT」這個詞可能就會給比較高的權重,畢竟它確實關聯較大,而「網民」、「不亦樂乎」、「今日」好像沒什麼關聯,給予的權重可能就比較低,最後模型就會聚焦在「ChatGPT」這個詞上。


上一篇
Day 03 . LLM是啥? 應該不是Lxli Loves Me吧
下一篇
Day 05 . 生成式 AI 的優缺點與挑戰
系列文
30天從不認識生成式AI到好像稍微可能有點熟悉的過程5
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言