Day19: 任務導向之我們希望Siri可以操控手機和APP

2024 iThome 鐵人賽

DAY 19

AI/ ML & Data

軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹系列第 19 篇

16th鐵人賽 mllm llm chatbot siri

渴望脫魯的SWE

2024-10-03 09:34:30

320 瀏覽

分享至

每年的這個時候，都是果粉和卓粉的批鬥大會，在今年的六月，蘋果也宣布推出Apple Intelligence，與Google Gemini打對臺(我覺得沒Gemini好用就是了((小聲)。不過目前Siri和寫作工具還是整合ChatGPT，以提升使用者請求的精確度。

然而，蘋果的AI夢並不止步於此，他們在今年四月(將在10月的ECCV2024發表)提出Ferret-UI，希望強化 Siri 能力。

Ferret-UI為一個多模態語言模型(Multimodal Large Language Models，MLLMs)，可在手機螢幕介面上進行各種任務，如解析APP Store畫面的各種資訊，並對使用者總結畫面上APP的敘述及如何始用。

光一個MLLM模型可對手機介面做圖標識別和光學字符識別(OCR)、Screen2words(Image-to-text)及任務導向對話(TOD)，可見蘋果對AI產品的野心。而蘋果對Ferret-UI的期望不僅僅於此，他們也持續強化基底模型Ferret，希望Siri 能依據用戶需求，來訂購到正確時間地點的機票。

Reference.
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Arxiv-Paper