iT邦幫忙

2025 iThome 鐵人賽

DAY 4
0
生成式 AI

30天生成式AI入門與實作日記系列 第 4

[Day 4] 大語言模型(LLM)是什麼?

  • 分享至 

  • xImage
  •  

昨天我在Colab上跑出第一個生成結果,輸入Hello, AI world!,模型居然幫我接出了一大段電影評論。雖然看起來有點跳Tone,但這其實就是大語言模型(LLM)最核心的運作方式。

文字接龍的原理
想像我們在玩成語接龍,每個人輪流講一句話,規則就是「要根據前一句來決定下一句」。
而LLM也是類似的,它不是真的理解語意,而是 透過機率去預測下一個最可能出現的字
當我輸入Hello, AI world!,模型就會根據它訓練時看過的資料,去猜接下來最常出現的文字是什麼。
這個過程會一個詞一個詞地生成,就像在不停玩文字接龍
所以才會跑出一大段電影評論,因為在模型的記憶裡,類似開頭後面可能常常接的是影評文章的語氣。

LLM的定義
LLM全名是Large Language Model,中文叫「大語言模型」。
它的關鍵特色有:

  • Large(大):模型參數動輒上億甚至上千億,需要大量的運算資源來訓練。
  • Language(語言):專門針對自然語言進行建模,可以生成、理解、翻譯、摘要文字。
  • Model(模型):背後其實是一個深度學習模型,透過大量資料學習字與字之間的統計關係

從GPT-2到ChatGPT
昨天我使用的GPT-2,就是最早期比較有名的LLM之一。它已經能生成流暢的英文文章,但也常常出現跳Tone或重複的內容。
後來更大的模型(GPT-3、GPT-4、Claude、Gemini…)出現,因為規模更大、資料更多、訓練方式更進步,所以能夠生成更合理、更貼近人類語言的文字。

大語言模型(LLM)可以想成是一個超級強大的文字接龍機器。它並不是在真正理解,而是在根據大量資料去推算下一個字最有可能是什麼
昨天看到GPT-2把Hello, AI world! 接成一篇電影評論,看似奇怪,其實正好展現了它的本質。這種接龍能力,就是後續各種應用的基礎。

明天我會更進一步,從LLM 架構開始介紹它背後的關鍵技術——Transformer。


上一篇
[Day 3] 在 Colab 建立生成式 AI 實驗環境
系列文
30天生成式AI入門與實作日記4
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言