大語言模型的單模與多模：從文字到跨感官

2025 iThome 鐵人賽

DAY 2

AI & Data

17th鐵人賽

152 瀏覽

接下來幾天我會圍繞這一些比較重要但基礎的觀念探討

現行Chat AI工具已經廣泛地在使用，如果針對此次比賽主題有興趣者，我相信多少已經在使用Chat AI工具來協助日常工作。以一般通用來說，現行常見的大型語言模型，例如GPT、Gemini，他們的多模大型語言模型已經可以回應大部分的問題，而且頗專業。

多模大型語言模型?? 抱歉，我忘了針對一些基礎做介紹，這個章節稍微來講一下什麼是大型語言模型，單模與多模差異。

一、什麼是大型語言模型 (LLM)？

你可以把大型語言模型想像成一個讀過海量書籍和資料的超級大腦。透過大量的學習，它學會了「理解人類語言」和「用人類的語言來表達」，因此能夠幫您回答問題、翻譯文件、撰寫文章，甚至產生程式碼。我們可以從三個部分來深入認識這個強大的工具。

大型 (Large)：模型在「學習」過程中，會使用極為龐大的資料量來做訓練。例如GPT-3 訓練規模達數千億個 tokens，相當於1500 萬本書（如果一本書 20 萬 tokens）。這些資料可能包含了網路上幾乎所有的公開文章、書籍、論文、程式碼、對話紀錄等等。資料規模遠遠超過任何一個人一生能夠閱讀的總和。
語言 (Language)：代表這個模型的核心能力是處理「人類的語言」。透過海量的資料學習，逐漸掌握了文法規則、上下文語意、甚至是不同文化背景下的語言風格與隱喻。(現在的多模模型還能處理圖片、音訊、影片等資料)
模型 (Model)：在 AI 領域，「模型」可以想像成是一個濃縮了知識與規律的「大腦」。它並非死記硬背所有看過的資料，而是將這些資料消化、吸收，並從中歸納出模式與關聯性，最終學會**「理解語言」與「生成語言」**這兩大核心技能。

要理解 LLM 如何運作，可以將它想像成一個超級強大的「下一個字預測器」。

想像一下，你要學會寫文章，最快的方法就是大量閱讀書籍、文章，並觀察他人如何對話。LLM 的學習過程也是如此，它在訓練時接觸了海量的文字資料，並依靠一種稱為 Transformer 的演算法去找出文字中的規律。

例如，當模型看到這句話：
「我早上去便利商店買了一杯＿＿」

它會從學過的資料中分析，最常出現在這個位置的詞是「咖啡」。它也因此記住了「便利商店」與「咖啡、麵包、飲料」等詞彙的高度關聯性。

實際上，模型並不是「知道」正確答案，而是計算「下一個字詞出現的機率」。以上述例子來說，模型可能會計算出：

模型會根據這些機率來挑選字詞，然後一個接一個地生成，最終組合成一段通順且有意義的話。正因為它學習的資料量太大，對語言規律的掌握太精準，所以表現出來的成果就像是真的「聽懂你」一樣，能夠寫詩、解數學、翻譯，甚至編寫程式碼。

註1 : 核心原理為 Next Token Prediction + Tokenization & Embeddings + Attention Mechanism
註2 : 因為預測，所以才會有人說AI常常有幻覺

早期 LLM 的「感官」是單一的，它們只能理解和生成「文字 (Text)」這種單一形式的資訊，我們稱之為單模態 (Unimodal) LLM。

然而，技術的演進賦予了 LLM 更強大的能力，讓它們開始處理多種資訊類型，這就是我們現在常聽到的多模態 (Multimodal) LLM。

多模 LLM：能夠同時理解、處理並生成兩種或以上模態資訊的模型。最常見的組合是「文字 + 圖片」，並逐漸擴展到聲音、影片等。對它來說，世界是多采多姿的，有文字、圖像，也有聲音。

那多模態是如何實現的？主要依靠三大技術突破：

將萬物翻譯成共通語言 (Tokenization / Embedding)：無論是圖片的像素、聲音的波形，還是文字的詞彙，全部都能被轉換成模型看得懂的數字序列（稱為 token）。

所有模態最後都會轉換成向量嵌入，進入同一個語意空間。
建立跨模態的理解空間 (Cross-modal Alignment)：模型會學習將不同類型資料的 token 建立關聯。例如，讓模型理解圖片中的「貓」和文字中的「貓」是同一個概念。
統一的思考架構 (Transformer)：Transformer 架構（源於 2017 年 Google 的論文《Attention is All You Need》）非常強大，它不僅能處理文字序列，也能高效處理被轉換成 token 的圖像和聲音序列。GPT、Gemini 等知名模型都奠基於此。

透過這些技術，LLM 不再是只能讀懂文字，而是進化成能看、能聽、能說的「全能助理」