iT邦幫忙

2024 iThome 鐵人賽

DAY 4
1
生成式 AI

生成式 AI之亂—從概念到實踐的LLM開發生態探索系列 第 4

Day4 模型介紹(GPT-4o, Claude 3.5 Sonnet, Gemini, llama3.1, Phi-3, Qwen2.5, Grok, ...)

  • 分享至 

  • xImage
  •  

上次提到生成式AI的開發的三大支柱「模型、平台、開發套件」,這次先來討論「模型」這個支柱。本文將聚焦於生成式AI的核心 「模型」。我們將主要探討語言模型(Language Models),此外也會介紹其他常見生成式AI模型類型,如Embedding model和影像生成模型等,解釋他們的特點、應用場景,以及當前市場上的主要參與開發者。目前我們在市面上能看到的生成式AI模型,絕大多數都是由專門研究模型的公司或團隊來研發,他們研究如何讓模型有更好的表現、支援、應用場景,以及不同面向的還有更低的成本、更安全的內容等。

以下整理了一個常見列表,收集了市面上比較新的模型:

  1. 語言模型(Language Models)
    語言模型能夠理解、生成和操縱語言(如人類的語言),這些模型透過大規模的文本數據訓練,學習語言的結構、語法、語意和規律。因此語言模型很適合來做翻譯、總結等工作。甚至有些模型擁有像是視覺這樣的能力,能對圖片進行描述、分析等等。
    以下整理了一個常見列表,收集了市面上比較新的模型,以及不專業的主觀評價:
開發商 模型名稱 特點 參數量 上下文長度 發布時間
OpenAI(美國) GPT-4o 目前OpenAI招牌,各方面表現均衡 128K 2024/5/13
GPT-4o-mini 比較實惠的模型,適合執行中小型任務,性能與成本平衡 128K 2024/7/18
OpenAI o1-preview OpenAI最新發表模型,主張有更好的自我CoT能力,但貴的要死 128K 2024/9/13
OpenAI o1-mini 128K 2024/9/13
Anthropic(美國) Claude 3.5 Sonnet 目前Anthropic招牌,具有全面且均衡的性能表現 200K 2024/6/21
Claude 3 Opus Anthropic參數量最龐大的模型 200K 2024/3/4
Claude 3 Haiku Anthropic最快,最便宜的模型 200K 2024/3/4
Google(美國) Gemini 1.5 Pro 目前Gemini招牌,主打超長上下文 2m 2024/5/14
Gemini 1.5 Flash 主打快、長上下文 1m 2024/5/14
Gemma(開源) SLM 2, 9, 27B 8k 2024/2/22
CodeGemma, PaliGemma, Recurrent(開源) 針對專們任務:Code(編程)、Vision(視覺)、循環架構 2B 2024/4/9
Amazon(美國) Titan Text G1 相對實惠的對話模型 32K
Meta(美國) Llama 3.1(開源) 開源界先驅,多種規格可選 8, 70, 405B 128K 2023/7/23
Microsoft(美國) Phi-3(開源) 針對移動設備和邊緣運算優化 3.8, 7, 14B 4k, 128k 2024/4/23
Apple(美國) OpenELM(開源) 針對移動設備優化 0.27B 2024/4/24
Mistral(法國) Mistral Large 2(開源) 大模型 123B 128K 2024/7/2
Mistral Small v24.09(開源) 有視覺能力 22B 2024/9/18
AI21 Labs(以色列) Jurassic-2 Mid
Alibaba(中國) Qwen2(開源) 各種規格參數量都有,中文模型標竿,提供MoE版本 0.5, 1.5 ,7, 72, 110B 128K 2024/6/7
Qwen2.5(開源) 除了基礎的語言模型,還有專門針對寫代碼Coder和數學Math 0.5, 1.5, 3, 7, 14, 32, 72B 128K 2024/9/19
xAI(美國) Grok-1(開源) 少見的開源超大模型 314B 128K 2024/3/18
Grok-2(Beta)
Nvidia(美國) Nemotron 4 340B(開源) 少見的開源超大模型 340B 4K 20246/14
Stability AI StableLM v2(開源) 1.6, 12B 2024/1/19
  1. Embedding Models
    中文稱嵌入模型。Embedding model通常能將文本和影像或其他類型的數據轉換成密集的向量,這些向量捕捉了數據的特徵,使得機器能更好理解和處理一些複雜的資料。
開發商 模型名稱 維度 字符上限(Max Token) 特點
OpenAI(美國) text-embedding-3-large Max: 1536 Min: 256 8191
text-embedding-3-small Max: 1536 Min: 256 8191
Amazon(美國) Titan Text Embeddings V2 1,024 (預設)、384、256 8,000
Titan Multimodal Embeddings G1 256、512、1024 128 影像大小上限:25 MB
Cohere(加拿大) Embed English 1024 512
Embed Multilingual 1024 512 支援108種語言
  1. 影像生成模型(Image Generator)

    影像生成模型能夠根據文字描述或其他輸入(如圖片)生成新的影像。這類模型通常基於深度學習技術,如生成對抗網路(GANs)或擴散模型(Diffusioin Models)

    • Stability AI: SDXL 1.0(開源、可商用)、SD3 Large 1.0(已開源、最新熱門模型)
    • Microsoft: DALL·E 3
    • Amazon: Titan Image Generation
    • Google: Imagen 3
    • Black Forest Labs(前Stability AI員工組成): FLUX.1(開源、與SD3 Large 1.0競爭)

生成式AI模型的發展正處於蓬勃期,各大科技公司和研究機構都在積極推進相關技術。例如,國科會基於meta/llama3所製作更貼近台灣語境的TAIDE模型,Groq則開發了能讓Llama 3.1-8B每秒輸出800+Token的LPU。

為了跟上這個快速發展的生態系統,開發者需要持續關注並探索新的、更優秀的模型。因此這裡也整理了一些值得關注的資源:

  • Github: 全球最大的代碼托管平台,是開源項目的集中地,還有許多研究論文的代碼和專案,開發者必須知道的地方。
    https://ithelp.ithome.com.tw/upload/images/20240918/20151952ENPXTS289d.png
  • Hugging Face: 被譽為AI界的github,幾乎所有開源語言模型和Endpoint都有在上面。
    https://ithelp.ithome.com.tw/upload/images/20240918/20151952hqaKra6MEG.png
    https://ithelp.ithome.com.tw/upload/images/20240918/20151952oypPgVqRr1.png
  • Artificial Analysis: 針對現有大部分的大語言模型進行能力的進行基準測試,並提供多種參考指標,可以協助我們從多個面向評估模型。
    https://ithelp.ithome.com.tw/upload/images/20240918/20151952JVwlXbpszd.png
    https://ithelp.ithome.com.tw/upload/images/20240918/20151952DrHBiDvqqu.png

Reference


本文內容基於個人學習、交流與實踐經驗,並非專門研究生成式 AI 或領域專家。若有任何內容上的錯誤或建議,誠摯歡迎友善交流與指正,讓我們共同探討與成長。感謝您的閱讀與支持!


上一篇
Day3 學習路徑
下一篇
Day5 平台介紹(OpenAI, Amazon, Microsoft, Google, Anthropic, Nvidia, Github, Ollama, LM studio)
系列文
生成式 AI之亂—從概念到實踐的LLM開發生態探索12
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言