每年的這個時候,都是果粉和卓粉的批鬥大會,在今年的六月,蘋果也宣布推出Apple Intelligence,與Google Gemini打對臺(我覺得沒Gemini好用就是了((小聲)。不過目前Siri和寫作工具還是整合ChatGPT,以提升使用者請求的精確度。
然而,蘋果的AI夢並不止步於此,他們在今年四月(將在10月的ECCV2024發表)提出Ferret-UI,希望強化 Siri 能力。
Ferret-UI為一個多模態語言模型(Multimodal Large Language Models,MLLMs),可在手機螢幕介面上進行各種任務,如解析APP Store畫面的各種資訊,並對使用者總結畫面上APP的敘述及如何始用。
光一個MLLM模型可對手機介面做圖標識別和光學字符識別(OCR)、Screen2words(Image-to-text)及任務導向對話(TOD),可見蘋果對AI產品的野心。而蘋果對Ferret-UI的期望不僅僅於此,他們也持續強化基底模型Ferret,希望Siri 能依據用戶需求,來訂購到正確時間地點的機票。
Reference.
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Arxiv-Paper