接下來幾天我會圍繞這一些比較重要但基礎的觀念探討
現行Chat AI工具已經廣泛地在使用,如果針對此次比賽主題有興趣者,我相信多少已經在使用Chat AI工具來協助日常工作。以一般通用來說,現行常見的大型語言模型,例如GPT、Gemini,他們的多模大型語言模型已經可以回應大部分的問題,而且頗專業。
多模大型語言模型?? 抱歉,我忘了針對一些基礎做介紹,這個章節稍微來講一下什麼是大型語言模型,單模與多模差異。
你可以把大型語言模型想像成一個讀過海量書籍和資料的超級大腦。透過大量的學習,它學會了「理解人類語言」和「用人類的語言來表達」,因此能夠幫您回答問題、翻譯文件、撰寫文章,甚至產生程式碼。我們可以從三個部分來深入認識這個強大的工具。
大型 (Large):模型在「學習」過程中,會使用極為龐大的資料量來做訓練。例如GPT-3 訓練規模達數千億個 tokens,相當於1500 萬本書(如果一本書 20 萬 tokens)。這些資料可能包含了網路上幾乎所有的公開文章、書籍、論文、程式碼、對話紀錄等等。資料規模遠遠超過任何一個人一生能夠閱讀的總和。
語言 (Language):代表這個模型的核心能力是處理「人類的語言」。透過海量的資料學習,逐漸掌握了文法規則、上下文語意、甚至是不同文化背景下的語言風格與隱喻。(現在的多模模型還能處理圖片、音訊、影片等資料)
模型 (Model):在 AI 領域,「模型」可以想像成是一個濃縮了知識與規律的「大腦」。它並非死記硬背所有看過的資料,而是將這些資料消化、吸收,並從中歸納出模式與關聯性,最終學會**「理解語言」與「生成語言」**這兩大核心技能。
要理解 LLM 如何運作,可以將它想像成一個超級強大的「下一個字預測器」。
想像一下,你要學會寫文章,最快的方法就是大量閱讀書籍、文章,並觀察他人如何對話。LLM 的學習過程也是如此,它在訓練時接觸了海量的文字資料,並依靠一種稱為 Transformer 的演算法去找出文字中的規律。
例如,當模型看到這句話:
「我早上去便利商店買了一杯__」
它會從學過的資料中分析,最常出現在這個位置的詞是「咖啡」。它也因此記住了「便利商店」與「咖啡、麵包、飲料」等詞彙的高度關聯性。
實際上,模型並不是「知道」正確答案,而是計算「下一個字詞出現的機率」。以上述例子來說,模型可能會計算出:
模型會根據這些機率來挑選字詞,然後一個接一個地生成,最終組合成一段通順且有意義的話。正因為它學習的資料量太大,對語言規律的掌握太精準,所以表現出來的成果就像是真的「聽懂你」一樣,能夠寫詩、解數學、翻譯,甚至編寫程式碼。
註1 : 核心原理為 Next Token Prediction + Tokenization & Embeddings + Attention Mechanism
註2 : 因為預測,所以才會有人說AI常常有幻覺
早期 LLM 的「感官」是單一的,它們只能理解和生成「文字 (Text)」這種單一形式的資訊,我們稱之為單模態 (Unimodal) LLM。
然而,技術的演進賦予了 LLM 更強大的能力,讓它們開始處理多種資訊類型,這就是我們現在常聽到的多模態 (Multimodal) LLM。
那多模態是如何實現的? 主要依靠三大技術突破:
將萬物翻譯成共通語言 (Tokenization / Embedding):無論是圖片的像素、聲音的波形,還是文字的詞彙,全部都能被轉換成模型看得懂的數字序列(稱為 token)。
所有模態最後都會轉換成向量嵌入,進入同一個語意空間。
建立跨模態的理解空間 (Cross-modal Alignment):模型會學習將不同類型資料的 token 建立關聯。例如,讓模型理解圖片中的「貓」和文字中的「貓」是同一個概念。
統一的思考架構 (Transformer):Transformer 架構(源於 2017 年 Google 的論文《Attention is All You Need》)非常強大,它不僅能處理文字序列,也能高效處理被轉換成 token 的圖像和聲音序列。GPT、Gemini 等知名模型都奠基於此。
透過這些技術,LLM 不再是只能讀懂文字,而是進化成能看、能聽、能說的「全能助理」
多模 LLM 在生活與工作的各個領域例子非常多,例如:
今天先寫到這樣,明天繼續。