過去幾天我們介紹了 RNN、Encoder–Decoder、Transformer 和 Positional Encoding,
這些概念共同構成了語言模型的基礎。
今天,我們來看看這些技術最終累積導向的成果:LLM(Large Language Model)大型語言模型。
這邊稍微回顧一下前幾天講過的深度學習模型架構:
RNN(Recurrent Neural Network)
Encoder–Decoder 架構
Transformer
LLM,全名為 Large Language Model(大型語言模型),是基於 Transformer 架構、使用巨量文字資料訓練而成的模型
不過,它的核心任務仍然是:「預測下一個詞」
這項看似簡單的任務,卻演變成如今非常非常強大的語言模型能力🤯
雖然 LLM 是「語言模型」,但它其實學到的不只是文字的規則。
在預測下一個詞的過程中,模型同時學會了:
LLM 不只是單一模型,而是整個 AI 生態鏈的核心。
以下為環繞 LLM 的一些應用與技術,包括:
其實還有很多很多的技術,這邊就舉這些為例。
我相信不只是從上面的文字,大家應該從生活中的經驗都對 LLM 有初步的認識了。如今大家應該都常常在用 LLM 來進行各項任務,像是回答人際關係問題、怎麼寫 email、怎麼寫作業(?)等。
接下來我會來講一點跟 LLM 有關的技術應用,包含 Chain-of-Thought、RAG、Ollama 等,來看看大型語言模型還能如何使用與應用!!