3-2 不同版本的Gemini模型及其應用場景

16th鐵人賽

Wolke

2024-08-13 00:02:27

3062 瀏覽

分享至

3-2 不同版本的Gemini模型及其應用場景

概述

在2023年 12 月，Google 推出了 Gemini 1.0，並提供三個尺寸：Ultra、Pro 和 Nano。繼其成功之後，我們發布了具突破性長上下文窗口（1 百萬標記）的 Gemini 1.5 Pro。開發者已經在各種應用中利用 1.5 Pro，其增強的多模態推理能力和整體性能表現非常出色。

https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/gemini_2M_tokens.mp4

Gemini 1.5 Flash

為了應對降低延遲和成本效率的需求，我們推出了 Gemini 1.5 Flash。這款模型專為高速度、高容量任務設計，雖然比 1.5 Pro 更輕量，但仍保持了令人印象深刻的性能。

主要特點

速度和效率：優化以快速處理並有效擴展。
多模態推理：能夠處理多種類型的信息。
長上下文窗口：支持高達 1 百萬標記。

Gemini 1.5 Flash 非常適合摘要、聊天應用、圖像和視頻字幕生成以及從長文檔和表格中提取數據。

升級的 Gemini 1.5 Pro

我們顯著升級了 1.5 Pro，將其上下文窗口延長至 2 百萬標記，並增強了代碼生成、邏輯推理、多回合對話和多媒體理解等能力。這個模型現在在處理複雜指令、多回合對話和集成音頻和圖像處理方面表現優異。

Gemini Nano 擴展

Gemini Nano 正在擴展以支持多模態輸入，使應用能夠解讀文本、圖像、聲音和口語，首先在 Pixel 設備上實現。

下一代開放模型：Gemma 2

我們也在推進我們的開放模型家族，推出 Gemma 2。這一新一代模型具有突破性性能和效率的架構，並包括我們的第一個視覺-語言模型 PaliGemma。

負責任的 AI 創新

Gemma 2 將提供各種尺寸，我們還升級了負責任生成式 AI 工具包，增加了 LLM Comparator 來評估模型回應質量。

Project Astra：AI 助手的未來

作為我們使命的一部分，我們在開發通用 AI 助手方面取得了重大進展。這些助手旨在：

理解和回應複雜上下文：實時處理多模態信息。
主動和可教：適應用戶互動並不斷學習。
自然互動：提供對話級別的回應時間和增強的語調。

Project Astra 旨在創造一個隨時可通過手機或眼鏡訪問的專家 AI 助手，通過先進的 AI 互動增強日常任務。

https://www.youtube.com/watch?v=nXVvvRhiGjI

持續探索

我們將繼續探索新的想法和應用，確保我們的模型滿足不斷演變的用戶需求。

Gemini Ultra、Gemini Pro 和 Gemini Nano 模型對比表

特點	Gemini Ultra	Gemini Pro (Flash為輕量版)	Gemini Nano
主要用途	高複雜度任務，廣泛數據處理	多功能任務，中等複雜度	輕量任務，移動和嵌入式應用
參數數量	約 5000 億	約 2800 億	Nano-1: 18 億，Nano-2: 32.5 億
上下文窗口	高達 2 百萬標記	高達 2 百萬標記	有限，設計為高效
性能	在多數基準測試中超越 GPT-4，先進多模態推理	在多個基準測試中超越 GPT-3.5，適合一般 AI 任務	優化於低功耗設備上運行，高效
能力	精細理解文本、圖像、音頻、代碼、數學和物理	腦力激盪、摘要、內容創作、代碼生成、多回合對話	圖像和文本理解，適合移動和網頁應用
可用性	預計 2024 年推出，目前尚未公開	通過 Google Bard 和 Vertex AI 提供	可用於 Pixel 8 Pro，逐步擴展到其他設備
優勢	實時回應，卓越的多模態推理	各種任務的增強性能，有效利用資源	輕量，適合移動和嵌入式設備，成本效益高
部署	高功率服務器，專門應用	Google Bard，企業應用通過 Vertex AI
應用案例： Envision：為視障用戶提供實時描述。
Plural：總結和分析複雜的立法文件。
Zapier：從視頻素材中提取細節，實現自動化。
Dot：用於總結和信息過濾，支持個性化 AI 的開發。	移動設備，集成於 Pixel 手機和 Android 14 設備
Gemini Nano 目前(2024.6)可在Chrome Canary 中呼叫，不久應也會部署於 Chrome 正式版

這個對比表展示了 Google 在設計 Gemini 模型時的量身定制方法，確保它們滿足多樣化的應用和性能需求。欲了解更多詳情，請參閱 Gemini 技術文檔和其他來源如 Gaming Insighter。

ai studio 目前2024.7 支援

1. Gemini 1.5 Pro

擴展上下文窗口：現在提供 200 萬個 token 的上下文窗口，開放給所有開發者使用。
上下文快取：幫助減少多次使用相同 token 的任務成本。
代碼執行功能：允許模型生成和執行 Python 代碼，提升數學和數據推理能力。

2. Gemma 2

可用性：Gemma 2 現在可以在 Google AI Studio 中進行試驗，讓更多開發者接觸和使用這一開放模型。

3. Gemini 1.5 Flash

文本調整功能：正在逐步推出，預計到 7 月中旬全面開放。

參考來源：https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/?utm_source=gdm&utm_medium=referral&utm_campaign=io24#gemini-model-updates

https://developers.googleblog.com/en/new-features-for-the-gemini-api-and-google-ai-studio/