上次提到生成式AI的開發的三大支柱「模型、平台、開發套件」,這次先來討論「模型」這個支柱。本文將聚焦於生成式AI的核心 「模型」。我們將主要探討語言模型(Language Models),此外也會介紹其他常見生成式AI模型類型,如Embedding model和影像生成模型等,解釋他們的特點、應用場景,以及當前市場上的主要參與開發者。目前我們在市面上能看到的生成式AI模型,絕大多數都是由專門研究模型的公司或團隊來研發,他們研究如何讓模型有更好的表現、支援、應用場景,以及不同面向的還有更低的成本、更安全的內容等。
以下整理了一個常見列表,收集了市面上比較新的模型:
開發商 | 模型名稱 | 特點 | 參數量 | 上下文長度 | 發布時間 |
---|---|---|---|---|---|
OpenAI(美國) | GPT-4o | 目前OpenAI招牌,各方面表現均衡 | … | 128K | 2024/5/13 |
GPT-4o-mini | 比較實惠的模型,適合執行中小型任務,性能與成本平衡 | … | 128K | 2024/7/18 | |
OpenAI o1-preview | OpenAI最新發表模型,主張有更好的自我CoT能力,但貴的要死 | … | 128K | 2024/9/13 | |
OpenAI o1-mini | … | … | 128K | 2024/9/13 | |
Anthropic(美國) | Claude 3.5 Sonnet | 目前Anthropic招牌,具有全面且均衡的性能表現 | … | 200K | 2024/6/21 |
Claude 3 Opus | Anthropic參數量最龐大的模型 | … | 200K | 2024/3/4 | |
Claude 3 Haiku | Anthropic最快,最便宜的模型 | … | 200K | 2024/3/4 | |
Google(美國) | Gemini 1.5 Pro | 目前Gemini招牌,主打超長上下文 | … | 2m | 2024/5/14 |
Gemini 1.5 Flash | 主打快、長上下文 | … | 1m | 2024/5/14 | |
Gemma(開源) | SLM | 2, 9, 27B | 8k | 2024/2/22 | |
CodeGemma, PaliGemma, Recurrent(開源) | 針對專們任務:Code(編程)、Vision(視覺)、循環架構 | 2B | … | 2024/4/9 | |
Amazon(美國) | Titan Text G1 | 相對實惠的對話模型 | … | 32K | … |
Meta(美國) | Llama 3.1(開源) | 開源界先驅,多種規格可選 | 8, 70, 405B | 128K | 2023/7/23 |
Microsoft(美國) | Phi-3(開源) | 針對移動設備和邊緣運算優化 | 3.8, 7, 14B | 4k, 128k | 2024/4/23 |
Apple(美國) | OpenELM(開源) | 針對移動設備優化 | 0.27B | … | 2024/4/24 |
Mistral(法國) | Mistral Large 2(開源) | 大模型 | 123B | 128K | 2024/7/2 |
Mistral Small v24.09(開源) | 有視覺能力 | 22B | … | 2024/9/18 | |
AI21 Labs(以色列) | Jurassic-2 Mid | … | … | … | … |
Alibaba(中國) | Qwen2(開源) | 各種規格參數量都有,中文模型標竿,提供MoE版本 | 0.5, 1.5 ,7, 72, 110B | 128K | 2024/6/7 |
Qwen2.5(開源) | 除了基礎的語言模型,還有專門針對寫代碼Coder和數學Math | 0.5, 1.5, 3, 7, 14, 32, 72B | 128K | 2024/9/19 | |
xAI(美國) | Grok-1(開源) | 少見的開源超大模型 | 314B | 128K | 2024/3/18 |
Grok-2(Beta) | … | … | … | … | |
Nvidia(美國) | Nemotron 4 340B(開源) | 少見的開源超大模型 | 340B | 4K | 20246/14 |
Stability AI | StableLM v2(開源) | … | 1.6, 12B | … | 2024/1/19 |
開發商 | 模型名稱 | 維度 | 字符上限(Max Token) | 特點 |
---|---|---|---|---|
OpenAI(美國) | text-embedding-3-large | Max: 1536 Min: 256 | 8191 | … |
text-embedding-3-small | Max: 1536 Min: 256 | 8191 | … | |
Amazon(美國) | Titan Text Embeddings V2 | 1,024 (預設)、384、256 | 8,000 | … |
Titan Multimodal Embeddings G1 | 256、512、1024 | 128 | 影像大小上限:25 MB | |
Cohere(加拿大) | Embed English | 1024 | 512 | |
Embed Multilingual | 1024 | 512 | 支援108種語言 |
影像生成模型(Image Generator)
影像生成模型能夠根據文字描述或其他輸入(如圖片)生成新的影像。這類模型通常基於深度學習技術,如生成對抗網路(GANs)或擴散模型(Diffusioin Models)
生成式AI模型的發展正處於蓬勃期,各大科技公司和研究機構都在積極推進相關技術。例如,國科會基於meta/llama3所製作更貼近台灣語境的TAIDE模型,Groq則開發了能讓Llama 3.1-8B每秒輸出800+Token的LPU。
為了跟上這個快速發展的生態系統,開發者需要持續關注並探索新的、更優秀的模型。因此這裡也整理了一些值得關注的資源:
本文內容基於個人學習、交流與實踐經驗,並非專門研究生成式 AI 或領域專家。若有任何內容上的錯誤或建議,誠摯歡迎友善交流與指正,讓我們共同探討與成長。感謝您的閱讀與支持!