iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0
AI & Data

ㄟ唉廚房交響樂 多智能的煮飯秀系列 第 5

Day5 Multi-agent cooperate & competitive and challenge

  • 分享至 

  • xImage
  •  

多智能體應用場景有很多,智慧工廠、無人機機群、物聯網汽車以及自動交易機器人… 很多舉例不完,我們先從他們的關係去了解幾個種類

智能體間關係

主要有三種,合作型、競爭型、混合型

  1. 合作型(We are familiar~)
    像是無人工廠、無人機機群,就是合作類型的案例,彼此間會互相合作,共同把獎勵最大化。
  2. 競爭型(不是你死就我亡)
    互相競爭,有贏家跟輸家,像是Aphar GO就是該例子,長長的案例是透過互相競爭,彼此淬煉讓雙方變得更加強大。如果有看過金光布袋戲,就知道黑白郎君的名言:別人的失敗就是我的快樂拉~
  3. 混合型
    它其實就屬於上面的混合,像是 Open AI 的 Hide and Seek,你要學習跟隊友一起躲避,另一對要學習聯手抓人,你跟其他智能體的關係,有可能是隊友,有的有可能是敵人。

Multi-agent的挑戰

  1. Non-stationarity
    學習不穩定,因為我們的Value估計除了,狀態,還要計算到其他agents的行為。所有的agent,從a1~an,皆會影響到當下一個state的產生,state伴隨著reward,所以其實訓練上會不穩定,除非達到一個納什均衡,不然agents之間皆會彼此互相影響。
  2. Credit assignment
    你確定隊伍的成功與你的關係,就像是玩英雄聯盟一樣,輔助很多時候都是被忽略的角色,如果有一個輸出打得很好,你可以假設有一個輔助在保他,又或者他很懂得閃躲,保護自己,總之這個結果很明顯,AD可能很殺,但輔助的功勞多少卻比較很評估。
    又或者隊友太Carry,你想說躺著打都贏,學著學著可能某些agents都坦平了… (怎可麼跟某些現實世界情況很像?
  3. Scaling in number of agents
    數量越龐大,你要考量的越多。在組織學裡面,小的人數可以保有靈活性與彈性,作戰小組在一個數量是最優的,過多人有可能礙手礙腳。同時agents數量提升,管理與通訊的城堡也想推提升。

結語

Multi-agent 在以上遇到問題都遇到很大難關,不過也有很多研究給出相應的解法,我沒讀過對局理論論的書,但我想有很多理論的題目在裡面,如果可以穩定,且明確,相信可以普及到更多領域與場合。

參考:

Multi-Agent Reinforcement Learning: Foundations and Modern Approaches by Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer, 2023.


上一篇
Day4 Reinforce part-2
下一篇
Day6 Multi-agent architecture
系列文
ㄟ唉廚房交響樂 多智能的煮飯秀30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言