iT邦幫忙

2025 iThome 鐵人賽

DAY 26
0
AI & Data

AI、機器學習以及深度學習的語言學應用系列 第 26

Day 26 - Large Language Model(LLM,大型語言模型)

  • 分享至 

  • xImage
  •  

過去幾天我們介紹了 RNNEncoder–DecoderTransformerPositional Encoding
這些概念共同構成了語言模型的基礎。

今天,我們來看看這些技術最終累積導向的成果:LLM(Large Language Model)大型語言模型


從 RNN 到 Transformer

這邊稍微回顧一下前幾天講過的深度學習模型架構:

  1. RNN(Recurrent Neural Network)

    • 特點:逐步處理序列資料
    • 問題:長距離的文字關係比較難捕捉、訓練時間比較長
  2. Encoder–Decoder 架構

    • 應用:翻譯、摘要等序列轉換任務
    • 優點:分為 Encoder(編碼器)與 Decoder(解碼器)兩個階段
  3. Transformer

    • 核心:使用 Self-Attention 機制,同時考慮整句話的所有詞。
    • 優點:
      • 能平行化運算(加快訓練速度)
      • 擅長捕捉長距離關係
    • 搭配 Positional Encoding,補足模型對「詞序」的理解。
    • Transformer 是現代 LLM 的大大基石。

LLM 是什麼?

LLM,全名為 Large Language Model(大型語言模型),是基於 Transformer 架構、使用巨量文字資料訓練而成的模型

不過,它的核心任務仍然是:「預測下一個詞

這項看似簡單的任務,卻演變成如今非常非常強大的語言模型能力🤯

LLM 的幾個關鍵要素

  1. 巨量參數(Parameters)
    • 模型規模從幾百萬個參數(RNN 時代)提升至數千億個參數(GPT-5、Claude、Gemini 等)。
    • 每個參數都代表模型對語言的一種「微小的理解」。
  2. 龐大訓練資料(Data)
    • 來源包括:維基百科、書籍、網頁、對話、程式碼等。
    • 目標是讓模型學會語言規則、語意關係、常識知識。
  3. 強大的運算資源(Compute)
    • 利用 GPU/TPU 進行數週甚至數月的訓練。

LLM 的核心理念

雖然 LLM 是「語言模型」,但它其實學到的不只是文字的規則。
在預測下一個詞的過程中,模型同時學會了:

  • 語法結構:知道句子怎麼組成
  • 語意關聯:理解不同詞之間的語意距離
  • 世界知識:從大量文本中歸納出事實與常識
  • 推理能力:能在上下文中做出邏輯推斷

LLM 的強項與限制

  • 理解能力:LLM 能夠處理複雜的語意與上下文,但是有時候還是會誤解指令,像是我之前在請 LLM 幫我產出一段程式碼的時候,它說的跟它做的東西就是不一樣,甚至一直鬼打牆😤。我相信大家應該多多少少都有遇過類似的情形...
  • 幻覺😵‍💫:LLM 雖然說有強大的能力,我們有想問的東西就會拿去給 LLM 解答,但是有一點要注意的是 LLM 可能會有 Hallucination(幻覺)... 聽起來很神秘吼,但其實這個幻覺就是在說 LLM 可能會產出與事實不符的文字資訊。
    • 為什麼會有這樣的情況發生呢? ➔ 因為 LLM 基本上是從海量的資料在學習文字的規律,並根據學習到的東西,依據機率來去預測下個字,也就是說,它並不是在學「正確」的東西,而只是從被餵進去的東西當中再找出規律性而已
    • 總而言之,很多人會以為 LLM 提供的回答都是正確的,但是其實不盡然,因此這是要特別注意的地方哦~
  • 非即時資料:一般來說,在訓練模型的資料並不會是即時更新的,它都是有一定的時間限制,因此若不搭配網頁搜尋的功能,很有可能得到的資訊就會不是最新的

LLM 的相關應用

LLM 不只是單一模型,而是整個 AI 生態鏈的核心。
以下為環繞 LLM 的一些應用與技術,包括:

  • Chain-of-Thought(CoT):讓模型「逐步推理」。
  • RAG(Retrieval-Augmented Generation):讓模型「查資料再回答」。
  • Ollama:讓使用者在本地執行開源模型,兼顧隱私與可控性。

其實還有很多很多的技術,這邊就舉這些為例。


小結

我相信不只是從上面的文字,大家應該從生活中的經驗都對 LLM 有初步的認識了。如今大家應該都常常在用 LLM 來進行各項任務,像是回答人際關係問題、怎麼寫 email、怎麼寫作業(?)等。
接下來我會來講一點跟 LLM 有關的技術應用,包含 Chain-of-Thought、RAG、Ollama 等,來看看大型語言模型還能如何使用與應用!!


上一篇
Day 25 - Positional Encoding(位置編碼)
系列文
AI、機器學習以及深度學習的語言學應用26
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言