Day2 什麼是大語言模型LLM？

16th鐵人賽 llm foundation model transformer 生成式ai

br__

2024-09-16 23:10:26

790 瀏覽

分享至

LLM在AI中的位置

在生成式AI百家爭鳴的今日，大家會很常聽到機器學習、深度學習、生成式AI、大語言模型、RAG、Fine-tuning等很多和AI相關的名詞，簡單釐清大語言模型和其他人工智慧技術之間的關係：

人工智慧（AI）：AI 是一個廣泛的領域，致力於讓電腦模擬或模仿人類的智能行為。
機器學習（ML）：ML 是 AI 的子領域，分為監督式學習、非監督學習、半監督學習、強化學習。
深度學習（DL）：DL 是機器學習的子領域，使用多層的神經網絡來處理更複雜的數據和問題。
自然語言處理（NLP）：NLP 是 AI 中專門處理語言理解和生成的領域，涵蓋從語言翻譯、語音識別到文本分析等各種應用。
生成式人工智慧（Ｇenerative AI）：GenAI 專注於生成內容，如文本、圖像、音樂、代碼等。生成式人工智慧的應用包括自動化寫作、創作藝術作品、編寫程式碼和生成虛擬數據。生成式 AI 大多基於深度學習技術，特別是生成式模型（如 GPT-3、DALL·E 等）。
多模態人工智慧（Ｍultimodal AI）：能夠處理和理解多種形式的資訊（如文字、圖片、音訊和影片）的人工智慧技術，將各種輸入類型轉換為多種輸出類型，這種技術使得 AI 能夠從不同的感官模式中學習和生成內容。
大語言模型（LLM）：LLM是NLP領域的一種先進應用，屬於GenAI的範疇。他是基於深度學習所訓練的大規模神經網路，通過處裡海量文本數據，形成數十億甚至數千億參數的模型。LLM不僅能生成自然、流暢的文本，還能理解和分析語言的輸入。其中最顯卓的特點是通用性強，能夠在各種NLP任務中表現出色，如文本生成、摘要、問答、翻譯，甚至是寫代碼和創意寫作等。

基礎模型 Foundation Model

在正式談大語言模型前，先了解一下「基礎模型(Foundation Model)」。

基礎模型Foundation Model是生成式AI的形式之一，這些模型從一個或多個人類語言的輸入 (prompts) 中產生輸出。相較於傳統的機器學習一次只能完成一種任務，Foundation Model基於複雜的神經網路，通常在大量的原始數據上進行預訓練，目標是建立一個通用的知識基礎，可以被應用到多種不同的任務中。包含自然語言處理、計算機視覺等多個領域。

LLM 的發展與 Transformer 架構密切相關。Transformer 是 2017 年由 Google 提出的一種革命性模型架構，最初主要用於處理序列數據（如文本和語音），後來也擴展到其他領域如計算機視覺。其核心創新是自注意力機制，能夠有效學習序列中各元素之間的關聯。Transformer 架構為許多基礎模型提供了技術基礎，推動了包括 LLM 在內的眾多 AI 創新應用的發展。

大語言模型（LLM）是在海量人類語言數據上訓練的基礎模型(Foundation Model)。「Large」在LLM中通常指兩個方面：一是超大規模的訓練數據集，有時可達PB級；二是模型參數的數量，通常達到數十億個。這些參數代表模型從訓練中學到的知識和能力。在模型名稱中常見的'xxB'中的'B'即表示參數數量有多少十億（billion）個。一般來說，參數越多，模型包含的知識越豐富，解決問題的能力也越強。然而，隨著技術的進步，「Large」的定義也在不斷演變。除了基於Transformer的模型外，新型架構如Mamba也在探索解決長序列處理等挑戰。目前，各大科技公司和研究機構都推出了自己的LLM，如Google的Gemini、OpenAI的GPT系列、Anthropic的Claude、Cohere的Command等，推動了LLM技術的快速發展和廣泛應用。

客製化的LLM應用

雖然市面各廠家已經有推出了很多的Foundation Model，但要像市面上看到的AI工具將這些語言模型的能力落地應用在實務場景，讓AI可以變成一個工具我們就需要一些方法來調整語言模型，包含Prompt Engineering、RAG、Fine-tuning、Pre-training，簡單說明一下這四種方法：

Prompt Engineering: 設計有效的提示(prompts)來幫助模型更好地理解問題並生成準確的回應。這些技巧直到今天也不斷在被研究與開發，常見如：
- 分解複雜問題
- 提供關鍵詞或補足上下文
以及一些常見的進階技巧：
- Few-shot(提供少量示例)
- Chain-of-thought(引導模型進行步驟化思考)
RAG (Retrieval-Augmented Generation): 通過從多種資料來源中檢索額外資訊，建立知識庫並使用如向量資料庫(Vector Database，一種專門用於存儲和檢索向量數據的數據庫)，提供更準確且符合當前情境的內容做為參考，補足模型的知識盲區。可以透過Embedding Model（將文本轉換為數值向量的模型）將文本轉為向量數值，並儲存到向量資料庫快速相似性檢所，特別適合需要最新或專門知識的情況。
Fine-tuning: 需要準備特定領域或任務的資料集，基於現有的LLM進行微調，並進行模型效能的評估。相較於RAG單純進行檢索，Fine-tuning能夠內化知識，提供更靈活的回答。這種方法使模型能夠學習特定領域知識或特定風格，在特定任務上表現更佳。
Pre-training: 簡單來說就是重頭訓練或接續現有模型來繼續訓練。我們可以準備訓練數據，拿開源的模型來繼續Training；甚至從無到有自己建構一個Foundation Model來訓練也可以，但這通常會比較困難。
但由於本系列主軸在於開發LLM應用，因此training model的部分，相信本屆鐵人賽一定有大大寫出乾貨滿滿的文章，故在此不多做解釋。