過去幾年在自然語言處理 (NLP) 領域,從 BERT 到 ChatGPT這樣的通用模型的演進,已經可以確立是成功的模式,這種模式現今也為電腦視覺和多模態領域提供了發展藍圖,視覺語言模型的演進,從視覺理解(看懂圖)、視覺生成、圖像問答等特定任務的模式,也轉向了多功能、通用視覺基礎模型,核心目標是建立能執行多樣化任務的通用助手,開發能夠感知、生成和推理視覺世界的通用視覺模型,並使其能夠與複雜的人類意圖保持一致。
一個模型若要稱為 VFM (Visual Foundation Model),其要素至少包括:
考量開源、多模態能力、及資源有限的環境下能高效運行,我先選擇了PailGemma進行介紹及實作。
PaliGemma 是 Google 推出的開源視覺語言模型,它是 Gemma 模型家族的一員。PaliGemma 的主要特點在於它能夠同時理解並處理圖片和文字兩種不同類型的資訊,因此能執行多種多模態任務。PaliGemma 的應用包括圖像標題生成、物件檢測、圖像分割、光學字符識別、圖像問答等多種視覺語言任務。做為一個視覺通用模型Visual Foundation Model,PaliGemma具備的特點包括:
PaliGemma 目前的最新版本是 PaliGemma 2,由 Google 於 2024 年五月發布,提供了多種參數規模選擇,包括 3B、10B 和 28B 版本,對應 Gemma 2 的 2B、9B 和 27B 語言模型,支援多種圖像解析度。
PaliGemma 2 雖然是一個強大的模型,能夠處理多種任務,但它在設計上更像是一個「基礎模型」。這意味著,它適合:
也因此,Google 後續又再推出 PaliGemma 2 mix,是一個「多任務整合模型」,它在訓練階段就已經將多種任務的能力整合在一起,因此可以「開箱即用」,直接處理多種任務而無需額外微調。
明天,我們就來動手實作PaliGemma !