[Day 4] 大語言模型（LLM）是什麼？

2025 iThome 鐵人賽

DAY 4

生成式 AI

30天生成式AI入門與實作日記系列第 4 篇

17th鐵人賽

口瓜

2025-09-18 10:20:00

208 瀏覽

分享至

昨天我在Colab上跑出第一個生成結果，輸入Hello, AI world!，模型居然幫我接出了一大段電影評論。雖然看起來有點跳Tone，但這其實就是大語言模型（LLM）最核心的運作方式。

文字接龍的原理
想像我們在玩成語接龍，每個人輪流講一句話，規則就是「要根據前一句來決定下一句」。
而LLM也是類似的，它不是真的理解語意，而是透過機率去預測下一個最可能出現的字。
當我輸入Hello, AI world!，模型就會根據它訓練時看過的資料，去猜接下來最常出現的文字是什麼。
這個過程會一個詞一個詞地生成，就像在不停玩文字接龍。
所以才會跑出一大段電影評論，因為在模型的記憶裡，類似開頭後面可能常常接的是影評文章的語氣。

LLM的定義
LLM全名是Large Language Model，中文叫「大語言模型」。
它的關鍵特色有：

Large（大）：模型參數動輒上億甚至上千億，需要大量的運算資源來訓練。
Language（語言）：專門針對自然語言進行建模，可以生成、理解、翻譯、摘要文字。
Model（模型）：背後其實是一個深度學習模型，透過大量資料學習字與字之間的統計關係。

從GPT-2到ChatGPT
昨天我使用的GPT-2，就是最早期比較有名的LLM之一。它已經能生成流暢的英文文章，但也常常出現跳Tone或重複的內容。
後來更大的模型（GPT-3、GPT-4、Claude、Gemini…）出現，因為規模更大、資料更多、訓練方式更進步，所以能夠生成更合理、更貼近人類語言的文字。

大語言模型（LLM）可以想成是一個超級強大的文字接龍機器。它並不是在真正理解，而是在根據大量資料去推算下一個字最有可能是什麼。
昨天看到GPT-2把Hello, AI world! 接成一篇電影評論，看似奇怪，其實正好展現了它的本質。這種接龍能力，就是後續各種應用的基礎。

明天我會更進一步，從LLM 架構開始介紹它背後的關鍵技術——Transformer。