最近Threads上出現一堆電子乞丐和風向文,讓人看了實在很躁。
或許有人會嗆:「不爽就不要看!」但人是犯賤的生物,你們會PO帳單條碼,我們就想臭。
我不禁思考一個問題:有沒有辦法讓AI成為一介網軍,知道如何上網發文,並且屏蔽掉自己不喜歡的文章,而且不透過selenium等自動化工具呢?
俄亥俄州立大學(OSU) 就提出了名為MINDACT的通用代理,
來讓AI透過一句話(Prompt)使用瀏覽器來訂機票、刷推特或購買iPhone等複雜的任務。
找到 Elon Musk 的推特,並開始關注、查看通知並按讚最新的推文。
預訂7月1日從孟買往返倫敦及7月5日從倫敦往返孟買的雙人成人機票
MINDACT首先使用一個小型語言模型(如:BERT) 來篩選候選元素,也就是根據Prompt來選擇網頁中的元素(連結、圖片、按鈕或輸入框…等)。
接下來,使用大型語言模型 (LLM) 從這些候選元素中選擇最合適的元素並預測相應的操作。
這個過程將元素選擇轉化為多選問題,並讓 LLM 生成操作。
為了訓練MINDACT,他們也提出了MIND2WEB資料集,蒐集了137個網站,並建立超過2,000個任務,涉及31個不同的領域(社群媒體、餐廳、售票系統、醫院掛號系統…等等)。
Ref.
NeurIPS 2023-Mind2Web: Towards a Generalist Agent for the Web
Offical site