iT邦幫忙

2025 iThome 鐵人賽

DAY 11
0
生成式 AI

VLM系列 第 11

Day11:Florence-2. (1/2)

  • 分享至 

  • xImage
  •  

Florence-2 是由 Microsoft Research 在 2024 年提出的一種一個創新的視覺基礎模型VFM(Visual Foundation Model),其設計旨在透過統一的、基於提示的表示方法,處理多樣化的電腦視覺與視覺語言任務。Florence-2 的核心能力是將文字提示作為任務指令,並以文字形式生成期望的結果,涵蓋了圖像描述captioning、物件辨旘object detection、定位grounding 或分割segmentation等多種功能。

為了解決這類多任務模型的訓練需要大規模、高品質標註資料的問題,研究團隊同時開發了 FLD-5B 資料集,包含 1.26 億張圖片上的 54 億條視覺標註,資料集是透過自動化圖像標註與模型迭代優化的策略建立。

Florence-2是開源模型,在 Hugging Face 上有 “microsoft/Florence-2-large”,以 MIT 授權釋出。但FLD-5B資料集並未公開。

Florence-2 核心概念與挑戰
為了實現通用的視覺基礎模型,面臨兩大核心維度問題及複雜性挑戰,Florence-2 的設計旨在應對這些問題:

  1. 空間層級 (Spatial Hierarchy):模型需具備在不同尺度上辨識空間細節的能力,從理解圖像級別的整體概念到精確到像素級別的細節。
  2. 語意粒度 (Semantic Granularity):模型需能涵蓋從高層次的圖像標題到細緻入微的描述,實現多功能的理解,以適應各種應用需求。

面對的主要挑戰:

  1. 缺乏全面的視覺標註:現有的資料集(如 ImageNet, COCO)通常是為特定任務設計的,缺乏捕捉空間層級與語意粒度細微差異所需的全面標註,這阻礙了基礎模型的發展。
  2. 缺乏統一的預訓練框架:傳統模型通常針對特定任務(如物體偵測、圖像字幕)設計專用架構。開發一個能夠以任務無關的方式適應各種視覺任務,甚至無需特定微調即可處理新任務的統一模型,是一項重大挑戰。

上一篇
Day10:PaliGemma (2/2)
下一篇
Day12:Florence-2 (2/2)
系列文
VLM14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言