iT邦幫忙

2024 iThome 鐵人賽

DAY 19
0
AI/ ML & Data

軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹系列 第 19

Day19: 任務導向之我們希望Siri可以操控手機和APP

  • 分享至 

  • xImage
  •  

每年的這個時候,都是果粉和卓粉的批鬥大會,在今年的六月,蘋果也宣布推出Apple Intelligence,與Google Gemini打對臺(我覺得沒Gemini好用就是了((小聲)。不過目前Siri和寫作工具還是整合ChatGPT,以提升使用者請求的精確度。

然而,蘋果的AI夢並不止步於此,他們在今年四月(將在10月的ECCV2024發表)提出Ferret-UI,希望強化 Siri 能力。

Ferret-UI為一個多模態語言模型(Multimodal Large Language Models,MLLMs),可在手機螢幕介面上進行各種任務,如解析APP Store畫面的各種資訊,並對使用者總結畫面上APP的敘述及如何始用。

光一個MLLM模型可對手機介面做圖標識別和光學字符識別(OCR)、Screen2words(Image-to-text)及任務導向對話(TOD),可見蘋果對AI產品的野心。而蘋果對Ferret-UI的期望不僅僅於此,他們也持續強化基底模型Ferret,希望Siri 能依據用戶需求,來訂購到正確時間地點的機票。

Reference.
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Arxiv-Paper


上一篇
Day18: MINDACT-可以幫你上網訂票和發廢文的終極Chatbot
下一篇
Day20: 使用Flask來架設自己的TOD Chatbot互動網站
系列文
軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言