Self-Attention 機制的力量 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 6

0

生成式 AI

生成式AI:從歷史與基礎原理到賦予產能的工具系列第 6 篇

Self-Attention 機制的力量

17th鐵人賽

2025-09-20 09:52:03

115 瀏覽

分享至

在自然語言處理與生成式 AI 的發展中，Self-Attention（自注意力） 機制可說是顛覆傳統模型的一大突破。傳統的 RNN 或 LSTM 主要依靠序列的順序進行處理，因此在處理長距離依賴關係時，往往會遇到梯度消失或記憶困難的問題。而 Self-Attention 則透過一種「全局關注」的方式，使得模型能在同一層中同時考量序列中不同位置的資訊。

Self-Attention 的核心公式如下：

其中：

Q（Query）：表示查詢向量
K（Key）：表示關鍵向量
V（Value）：表示數值向量
：為向量的維度，用來進行縮放，避免內積值過大

這個機制的力量在於，它能夠快速計算序列中任意兩個元素之間的關聯性。例如，在一句話中，模型能夠讓「它」這個代詞，正確地對應到前面提到的某個名詞，而不必受限於序列的距離。

相比之下，傳統的序列模型需要逐步傳遞訊息，導致長依賴問題。而 Self-Attention 的計算是平行化的，能同時處理整個序列，因此在運算效率與語意理解能力上，都有明顯優勢。

也因為這項特性，Self-Attention 成為 Transformer 架構 的基石，並進一步推動了 BERT、GPT 等大型語言模型的誕生。它不僅僅提升了模型的準確度，更讓生成式 AI 在翻譯、對話、文本生成等任務中展現出前所未有的能力。

Transformer 架構深度剖析

大型語言模型（LLM）的誕生與 GPT 系列

系列文

生成式AI:從歷史與基礎原理到賦予產能的工具共 30 篇

目錄

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19864 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙