Florence-2 是由 Microsoft Research 在 2024 年提出的一種一個創新的視覺基礎模型VFM(Visual Foundation Model),其設計旨在透過統一的、基於提示的表示方法,處理多樣化的電腦視覺與視覺語言任務。Florence-2 的核心能力是將文字提示作為任務指令,並以文字形式生成期望的結果,涵蓋了圖像描述captioning、物件辨旘object detection、定位grounding 或分割segmentation等多種功能。
為了解決這類多任務模型的訓練需要大規模、高品質標註資料的問題,研究團隊同時開發了 FLD-5B 資料集,包含 1.26 億張圖片上的 54 億條視覺標註,資料集是透過自動化圖像標註與模型迭代優化的策略建立。
Florence-2是開源模型,在 Hugging Face 上有 “microsoft/Florence-2-large”,以 MIT 授權釋出。但FLD-5B資料集並未公開。
Florence-2 核心概念與挑戰
為了實現通用的視覺基礎模型,面臨兩大核心維度問題及複雜性挑戰,Florence-2 的設計旨在應對這些問題:
面對的主要挑戰: