[Day5] 如何挑選 LLM 模型?

2024 iThome 鐵人賽

DAY 5

生成式 AI

從系統設計切入，探索 GenAI 在企業中的實踐系列第 5 篇

16th鐵人賽

Yi-Pei, Lee

團隊SI夢想工程隊

2024-09-06 08:26:39

1116 瀏覽

分享至

由於我們的目標是在開發生成式 AI 產品，所以會更著重在前述所提到的 decoder-only transformer models，而這也是許多現在知名生成式 AI 模型，如 GPT, Llama, Gemma, Mistral 採用的設計架構。

那不同的模型差異在哪呢？主要是參數量、訓練資料集和優化策略。
參數量越大，模型的生成能力通常越強，但需要更多的計算資源；訓練資料集的來源和質量直接影響模型在不同語境下的表現，比如 LLaMA 可能使用更多來自社群的數據、Google 的模型可能使用更多來自 Google 搜尋、雲端工具的廣泛資訊；而優化策略則強調特定任務，如 LLaVA 更專注於視覺處理、Claude Sonnet 則更強調 coding 功能，而在對話生成的任務上，GPT 系列模型表現尤為突出。

大致認識了 LLM 架構與模型之間的差異後，我們回到開發場景，一般來說，我們可以從幾個面向挑選欲所使用的模型：

模型的取用
a. 如果模型供應商本身就有提供服務在雲端上，如果是個人使用通常是這種方是，模型的效能會比自行架設好上許多，然而資料會有向外流出的風險，而 API 的計費和使用上限又依照各家公司有所不同。若模型是透過 API 串接 Open AI、Azure、Google 等平台則屬此類。
b. 如果要自行架設模型，Hugging face 上有提供各種各樣的模型，然而硬體設備是否可以支援? 通常受限於資源限制故表現效果較差，不過有較高的安全性。
使用場景
a. 在繁體中文或其他語言上的表現
b. 是否支援圖片與影音處理
c. 單次輸入的字數上限
d. 最高可以同時接受多少次請求

模型表現參考指標

以下整理了三種主要參考方向，可以作為模型選擇的實際依據：

SOTA－Language Models
全名 State of the Art，代表最先進的技術。這個網站有點像 Wiki，使用者都可以上去編輯內容，將各個領域所看到最新的數據、模型、評比結果放上去，比如上面的連結就列出了很多 LLM 模型和演算法，點進去之後也可以看到模型的相關研究結果，比如這篇就比較了不同模型在指定數據集理解長篇文章的排名。
LLM leaderboard
這裡就有由不同組織、依據不同項目作的各項評比，以下整理了一部份：
- LMSYS Chatbot 競技場－由 Large Model Systems Organization 所建立，蒐集了大量使用者的盲測比較下來的結果，盲測方法推測就是左上角 battle 的方式，輸入問題之後，系統會隨機由兩個 LLM 來回答，接著使用者可以點擊哪個模型的回應更理想，有興趣的話也可以點進去玩玩看。
- Artificial Analysis－其他的模型資訊，這個網站就整理得非常清楚，有不同情境下（如：一般用途、文字轉圖片等等）的效能、速度、價格等比較，而點進模型頁面，也可以看到該模型的所有相關資料。
- Huggingface 中文模型比較－如果要看中文的模型比較，可以參考這個。
- EQ-Bench－這個就蠻有趣的，比較各個模型理解複雜情緒和社交互動的能力。
- Exploring LLM Leaderboards－這篇 Medium 文章也介紹了其他多種不同的 Leaderboards。
直接操作
其實不論其他人的比較結果如何，最重要的還是模型目標情境下的能力，因此實際模擬操作是很重要的。而上述所提到的 LMSYS 也提供了可以直接選擇模型對話的頁面，LM Studio則是提供簡易的軟體介面，供使用者直接下載並取用開源模型，Coze則是可以選用其他人架好的 GAI 服務。