在Day3已經安裝並使用過transformers這個套件,還用GPT-2生成了第一段文字。當時我只是把它當成工具箱,並沒有細講它的背後原理。
接著在Day4,講到大語言模型(LLM)的本質,其實就是一個文字接龍的遊戲。它靠著預測下一個最可能出現的詞,把一句話一個字、一個詞接下去。
那麼問題來了,LLM為什麼能這麼強大?它是怎麼做到在大量語言資料裡抓到關鍵關係的?
答案就是今天的主角 —— Transformer 架構。
為什麼需要Transformer?
在Transformer出現之前,處理文字的主流方法是RNN(循環神經網路 或 LSTM(長短期記憶網路。
Transformer的關鍵:Attention機制
Transformer最大的創新就是 Attention。
與LLM的連結
LLM之所以能運作,就是因為Transformer讓它可以: