Day4 模型介紹(GPT-4o, Claude 3.5 Sonnet, Gemini, llama3.1, Phi-3, Qwen2.5, Grok, ...)

2024 iThome 鐵人賽

DAY 4

生成式 AI

生成式 AI之亂—從概念到實踐的LLM開發生態探索系列第 4 篇

16th鐵人賽 genai llm imagegenerator embeddingmodels

br__

2024-09-18 23:30:29

2890 瀏覽

分享至

上次提到生成式AI的開發的三大支柱「模型、平台、開發套件」，這次先來討論「模型」這個支柱。本文將聚焦於生成式AI的核心「模型」。我們將主要探討語言模型(Language Models)，此外也會介紹其他常見生成式AI模型類型，如Embedding model和影像生成模型等，解釋他們的特點、應用場景，以及當前市場上的主要參與開發者。目前我們在市面上能看到的生成式AI模型，絕大多數都是由專門研究模型的公司或團隊來研發，他們研究如何讓模型有更好的表現、支援、應用場景，以及不同面向的還有更低的成本、更安全的內容等。

以下整理了一個常見列表，收集了市面上比較新的模型：

語言模型(Language Models)
語言模型能夠理解、生成和操縱語言(如人類的語言)，這些模型透過大規模的文本數據訓練，學習語言的結構、語法、語意和規律。因此語言模型很適合來做翻譯、總結等工作。甚至有些模型擁有像是視覺這樣的能力，能對圖片進行描述、分析等等。
以下整理了一個常見列表，收集了市面上比較新的模型，以及不專業的主觀評價：

開發商	模型名稱	特點	參數量	上下文長度	發布時間
OpenAI(美國)	GPT-4o	目前OpenAI招牌，各方面表現均衡	…	128K	2024/5/13
	GPT-4o-mini	比較實惠的模型，適合執行中小型任務，性能與成本平衡	…	128K	2024/7/18
	OpenAI o1-preview	OpenAI最新發表模型，主張有更好的自我CoT能力，但貴的要死	…	128K	2024/9/13
	OpenAI o1-mini	…	…	128K	2024/9/13
Anthropic(美國)	Claude 3.5 Sonnet	目前Anthropic招牌，具有全面且均衡的性能表現	…	200K	2024/6/21
	Claude 3 Opus	Anthropic參數量最龐大的模型	…	200K	2024/3/4
	Claude 3 Haiku	Anthropic最快，最便宜的模型	…	200K	2024/3/4
Google(美國)	Gemini 1.5 Pro	目前Gemini招牌，主打超長上下文	…	2m	2024/5/14
	Gemini 1.5 Flash	主打快、長上下文	…	1m	2024/5/14
	Gemma(開源)	SLM	2, 9, 27B	8k	2024/2/22
	CodeGemma, PaliGemma, Recurrent(開源)	針對專們任務：Code(編程)、Vision(視覺)、循環架構	2B	…	2024/4/9
Amazon(美國)	Titan Text G1	相對實惠的對話模型	…	32K	…
Meta(美國)	Llama 3.1(開源)	開源界先驅，多種規格可選	8, 70, 405B	128K	2023/7/23
Microsoft(美國)	Phi-3(開源)	針對移動設備和邊緣運算優化	3.8, 7, 14B	4k, 128k	2024/4/23
Apple(美國)	OpenELM(開源)	針對移動設備優化	0.27B	…	2024/4/24
Mistral(法國)	Mistral Large 2(開源)	大模型	123B	128K	2024/7/2
	Mistral Small v24.09(開源)	有視覺能力	22B	…	2024/9/18
AI21 Labs(以色列)	Jurassic-2 Mid	…	…	…	…
Alibaba(中國)	Qwen2(開源)	各種規格參數量都有，中文模型標竿，提供MoE版本	0.5, 1.5 ,7, 72, 110B	128K	2024/6/7
	Qwen2.5(開源)	除了基礎的語言模型，還有專門針對寫代碼Coder和數學Math	0.5, 1.5, 3, 7, 14, 32, 72B	128K	2024/9/19
xAI(美國)	Grok-1(開源)	少見的開源超大模型	314B	128K	2024/3/18
	Grok-2(Beta)	…	…	…	…
Nvidia(美國)	Nemotron 4 340B(開源)	少見的開源超大模型	340B	4K	20246/14
Stability AI	StableLM v2(開源)	…	1.6, 12B	…	2024/1/19

Embedding Models
中文稱嵌入模型。Embedding model通常能將文本和影像或其他類型的數據轉換成密集的向量，這些向量捕捉了數據的特徵，使得機器能更好理解和處理一些複雜的資料。

開發商	模型名稱	維度	字符上限(Max Token)	特點
OpenAI(美國)	text-embedding-3-large	Max: 1536 Min: 256	8191	…
	text-embedding-3-small	Max: 1536 Min: 256	8191	…
Amazon(美國)	Titan Text Embeddings V2	1,024 (預設)、384、256	8,000	…
	Titan Multimodal Embeddings G1	256、512、1024	128	影像大小上限：25 MB
Cohere(加拿大)	Embed English	1024	512
	Embed Multilingual	1024	512	支援108種語言

影像生成模型(Image Generator)

影像生成模型能夠根據文字描述或其他輸入(如圖片)生成新的影像。這類模型通常基於深度學習技術，如生成對抗網路(GANs)或擴散模型(Diffusioin Models)
- Stability AI: SDXL 1.0（開源、可商用）、SD3 Large 1.0（已開源、最新熱門模型）
- Microsoft: DALL·E 3
- Amazon: Titan Image Generation
- Google: Imagen 3
- Black Forest Labs(前Stability AI員工組成): FLUX.1（開源、與SD3 Large 1.0競爭）

生成式AI模型的發展正處於蓬勃期，各大科技公司和研究機構都在積極推進相關技術。例如，國科會基於meta/llama3所製作更貼近台灣語境的TAIDE模型，Groq則開發了能讓Llama 3.1-8B每秒輸出800+Token的LPU。

為了跟上這個快速發展的生態系統，開發者需要持續關注並探索新的、更優秀的模型。因此這裡也整理了一些值得關注的資源：