iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
AI & Data

來都來了,那就做一個GCP從0到100的AI助理系列 第 2

大語言模型的單模與多模:從文字到跨感官

  • 分享至 

  • xImage
  •  

接下來幾天我會圍繞這一些比較重要但基礎的觀念探討

現行Chat AI工具已經廣泛地在使用,如果針對此次比賽主題有興趣者,我相信多少已經在使用Chat AI工具來協助日常工作。以一般通用來說,現行常見的大型語言模型,例如GPT、Gemini,他們的多模大型語言模型已經可以回應大部分的問題,而且頗專業。

多模大型語言模型?? 抱歉,我忘了針對一些基礎做介紹,這個章節稍微來講一下什麼是大型語言模型,單模與多模差異。

一、什麼是大型語言模型 (LLM)?

你可以把大型語言模型想像成一個讀過海量書籍和資料的超級大腦。透過大量的學習,它學會了「理解人類語言」和「用人類的語言來表達」,因此能夠幫您回答問題、翻譯文件、撰寫文章,甚至產生程式碼。我們可以從三個部分來深入認識這個強大的工具。

  • 大型 (Large):模型在「學習」過程中,會使用極為龐大的資料量來做訓練。例如GPT-3 訓練規模達數千億個 tokens,相當於1500 萬本書(如果一本書 20 萬 tokens)。這些資料可能包含了網路上幾乎所有的公開文章、書籍、論文、程式碼、對話紀錄等等。資料規模遠遠超過任何一個人一生能夠閱讀的總和。

  • 語言 (Language):代表這個模型的核心能力是處理「人類的語言」。透過海量的資料學習,逐漸掌握了文法規則、上下文語意、甚至是不同文化背景下的語言風格與隱喻。(現在的多模模型還能處理圖片、音訊、影片等資料)

  • 模型 (Model):在 AI 領域,「模型」可以想像成是一個濃縮了知識與規律的「大腦」。它並非死記硬背所有看過的資料,而是將這些資料消化、吸收,並從中歸納出模式與關聯性,最終學會**「理解語言」「生成語言」**這兩大核心技能。

二、LLM 的運作核心:一個強大的「下一個字預測器」

要理解 LLM 如何運作,可以將它想像成一個超級強大的「下一個字預測器」。

想像一下,你要學會寫文章,最快的方法就是大量閱讀書籍、文章,並觀察他人如何對話。LLM 的學習過程也是如此,它在訓練時接觸了海量的文字資料,並依靠一種稱為 Transformer 的演算法去找出文字中的規律。

例如,當模型看到這句話:
「我早上去便利商店買了一杯__」

它會從學過的資料中分析,最常出現在這個位置的詞是「咖啡」。它也因此記住了「便利商店」與「咖啡、麵包、飲料」等詞彙的高度關聯性。

實際上,模型並不是「知道」正確答案,而是計算「下一個字詞出現的機率」。以上述例子來說,模型可能會計算出:

  • 下一個詞是「咖啡」的機率為 60%
  • 下一個詞是「拿鐵」的機率為 30%
  • 下一個詞是「紅茶」的機率為 10%

模型會根據這些機率來挑選字詞,然後一個接一個地生成,最終組合成一段通順且有意義的話。正因為它學習的資料量太大,對語言規律的掌握太精準,所以表現出來的成果就像是真的「聽懂你」一樣,能夠寫詩、解數學、翻譯,甚至編寫程式碼。

註1 : 核心原理為 Next Token Prediction + Tokenization & Embeddings + Attention Mechanism
註2 : 因為預測,所以才會有人說AI常常有幻覺

「單模」到「多模」:模型的感官進化

早期 LLM 的「感官」是單一的,它們只能理解和生成「文字 (Text)」這種單一形式的資訊,我們稱之為單模態 (Unimodal) LLM

  • 單模 LLM:只能處理一種模態 (Modality) 的模型,這個模態就是「文字」。對它來說,世界只由文字構成。

然而,技術的演進賦予了 LLM 更強大的能力,讓它們開始處理多種資訊類型,這就是我們現在常聽到的多模態 (Multimodal) LLM

  • 多模 LLM:能夠同時理解、處理並生成兩種或以上模態資訊的模型。最常見的組合是「文字 + 圖片」,並逐漸擴展到聲音、影片等。對它來說,世界是多采多姿的,有文字、圖像,也有聲音。

那多模態是如何實現的? 主要依靠三大技術突破:

  1. 將萬物翻譯成共通語言 (Tokenization / Embedding):無論是圖片的像素、聲音的波形,還是文字的詞彙,全部都能被轉換成模型看得懂的數字序列(稱為 token)。

    所有模態最後都會轉換成向量嵌入,進入同一個語意空間。

  2. 建立跨模態的理解空間 (Cross-modal Alignment):模型會學習將不同類型資料的 token 建立關聯。例如,讓模型理解圖片中的「貓」和文字中的「貓」是同一個概念。

  3. 統一的思考架構 (Transformer):Transformer 架構(源於 2017 年 Google 的論文《Attention is All You Need》)非常強大,它不僅能處理文字序列,也能高效處理被轉換成 token 的圖像和聲音序列。GPT、Gemini 等知名模型都奠基於此。

透過這些技術,LLM 不再是只能讀懂文字,而是進化成能看、能聽、能說的「全能助理」

多模 LLM 的應用場景

多模 LLM 在生活與工作的各個領域例子非常多,例如:

  • 醫療:醫師可以同時輸入病患的病歷文字與 X 光影像,讓模型輔助診斷。
  • 教育:學生能用語音提出問題,模型不僅能回覆文字,還能生成圖表或影片幫助理解。
  • 金融與客服:銀行客戶上傳文件、照片或語音留言,模型能同時分析並提供完整的解答與建議。
  • 創意產業:設計師輸入一段描述,就能獲得圖片、影片甚至音樂的靈感素材。
  • 自動駕駛與智慧城市:多模模型能同時分析路況影像、交通數據與語音指令,幫助做出更精準的判斷。

今天先寫到這樣,明天繼續。


上一篇
為什麼想做專屬 AI 助理?
下一篇
為什麼提示詞會影響 LLM
系列文
來都來了,那就做一個GCP從0到100的AI助理5
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言