iT邦幫忙

2023 iThome 鐵人賽

DAY 25
0
AI & Data

ㄟ唉廚房交響樂 多智能的煮飯秀系列 第 25

Day25 Too_many_cooks Results

  • 分享至 

  • xImage
  •  

終於把概念跟方法講完了!這個章節我們就來看一下模型的表現有多好,該實驗主要用三個面向去表示模型的能力,除了第一種self-play,讓相同模型測試外,還有不同模型測試的組合,ad-hoc,最後一個則是找人來做意圖的評估,接著去看說,跟人類的判斷比起來,有多相符。

首先要提一下,這邊另外有四個方法去做比較:

  1. Bayesian Delegation (BD)
  2. Uniform Priors (UP) 從均勻分佈開始
  3. Fixed Beliefs (FB) 不會根據其他人的行為,更新P(ta)
  4. Divide and Conquer (D&C) 如果 P(ta)=0 則分配給 agents 相同的 sub-task
  5. Greedy 經典的貪婪算法,求越快越好

Self-play

左側縱軸部份,可以看到三種等級的環境,橫軸的話,則是三個不同複雜的任務,隨著越右邊步驟越多。每個圖表都有一個是直線圖,一個是折線圖。直線圖的y軸代表走得step,橫軸不同顏色代表五種演算法。右側的折線圖,則是y軸代表完成度,x軸代表steps。

https://ithelp.ithome.com.tw/upload/images/20231003/20121110hRiizCpXMv.png

可以觀察到,如果是以3x3為九宮格,最上面一排的任務,是都有完成,顯示環境複雜的的影響。那如果看到最下面這一排,也就是封閉式環境的實驗,則像是D&C與Greedy表現就很差,可能都沒法讀懂彼此間的意圖是什麼。全部的結果,可以看出BD的演算法都是表現最好,或者最快的那一組。

Ad-hoc

我覺得這篇蠻有趣的一個實驗,就是讓不同的智能體互相合作。體會一下什麼叫做神隊友與豬隊友的組合。可以看到左邊藍色圖塊,只要不是在對角線上的方塊,都是跟其他人合作的結果,數字則是為平均的steps,右邊則是整個合作的數字結果,分別有時間、完成度與Shuffle,這裡Shuffle則是指智能體移動卡住的次數,這邊值越低越好。可以看到BD在三個表線上,都完勝其他的演算法。
https://ithelp.ithome.com.tw/upload/images/20231003/2012111088QSuY9ciO.png

Human inferences

該研究在網路上找了45個志願者,根據畫面去判斷智能體的意圖,那對於每一個動作,有0~1的判斷,0是not likely at all,1為certainly。下面的圖表則是maaping的程度,每個點就是每一次事件的判斷分數,y軸是演算法,x軸是人類的平均判斷,可以看到BD的方法是最符合y=x的直線,也就表示BD的方法最符合人類的判斷,儘管研究上沒有使用到人類的判斷數據集。
https://ithelp.ithome.com.tw/upload/images/20231003/20121110mY5uaLM9Ee.png

結語

我覺得算是蠻酷的,最後面還找人類來做判斷的比較,其實我覺得那條線沒有真的很穩貼對角線,再來是說附錄的連續性控制,那張圖片有點怪怪的,三個判斷的bar都是在同一個位置,不知道是不是圖片給錯,但覺得以完整性來講,整個研究還算不錯,所以policy那塊要參考附錄,但整體能用 Bayesian Delegation 能作到這種程度,我覺得也蠻酷的
https://ithelp.ithome.com.tw/upload/images/20231003/20121110Bqz4ppMfNu.png

參考

Too many cooks: Bayesian inference for coordinating
multi-agent collaboration


上一篇
Day24 Too_many_cooks Bayesian Delegation
下一篇
Day26 Too_many_cooks 飯飯煮起來!
系列文
ㄟ唉廚房交響樂 多智能的煮飯秀30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言