為什麼需要理解?
這是 Transformer 厲害的關鍵。不懂它,就很容易把上下文塞爆。
白話定義
Attention=對關鍵位置加權,不是逐字平均掃
長距離依賴:能把遙遠的前後文關聯起來
多頭注意力:同時用不同角度看同一句話(語法/語義/情緒等)
常見情境
長報告摘要、跨段落呼應、條列與主旨抽取
常見誤解
「Attention=理解」→ 它是關聯加權,不是人類語義
「上下文越長越好」→ 成本暴增、還可能沖淡重點
如何判斷(觀念)
想像你自己畫螢光筆:先選關鍵、後補證據
上下文是資源,要「精準投放」而不是盲塞
小結
Attention 教會模型「怎麼看」。我們要學的是「給它看什麼」。