iT邦幫忙

2023 iThome 鐵人賽

DAY 27
0

今天我們要來介紹OpenAI在2017發表多智能體的經典之作 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments, 接著後面會再大家跑一下程式碼。

簡介

在許多場景,例如像是智慧工廠,如果我們直接用Q-learing或者policy的演算法,去訓練多個agents,會造成收斂不穩定,因為環境一直受到其他智能體感擾的問題,以及在一些競爭的條件下,彼此的演算法也會陷入納什均衡的狀態,導致頻繁的變換。OpenAI推出MADDPG的的方法,以DDPG為基底,考慮了critic全局觀測,actor分散執行的應用,使得agents可以在合作與競爭的條件下,穩定的收斂到局部最佳解。

MMDDPG

該研究提出三種方法,穩定多智能體的訓練

  1. Multi-Agent Actor Critic:
    首先執行的policy僅用到局部資訊,再來是,該方法並無有提供給agents彼此溝通的方式。critics的訓練資料是共享的,這樣的好處使得critics泛化能力大大增強。
    https://ithelp.ithome.com.tw/upload/images/20231008/20121110G744mk4oD6.png
    可以看到critics的更新包含a1~aN,所有actor的動作,以及x,x=(o1~oN)所有agents的觀測,這樣資訊量就變多了,唯一擔心的就是如果agents數目過大,critics應該也會變得不好收斂。
  2. Inferring Policies of Other Agents
    如上面提到的,critics參考agents彼此的資訊,所以policy在更新上會更穩健。
    https://ithelp.ithome.com.tw/upload/images/20231008/20121110Dx700kfBfh.png
    https://ithelp.ithome.com.tw/upload/images/20231008/20121110eWiO6VlAcu.png
  3. Agents with Policy Ensembles
    因為單個agent可能會因為要在競爭的前提下,過度擬合某個策略去最佳化利益,導致在其他情況,像是從諸葛亮的智商降低成平凡人,你原本苦心經營的高級策略就不管用了,因為對手僅會用平凡的套路。這時候就可以用多個policy在不同階段訓練,而達到模型的穩定性。
    https://ithelp.ithome.com.tw/upload/images/20231008/20121110XmoMVyOJA7.png

結語

其實蠻純粹的,更多資訊量達到穩定性,不過也是挺好奇量與訓練穩定性的正相關如何,或是說agents做的事情,如果又更複雜的話,例如不是單純球球藉由距離去吃分,而是讓agents打一個RPG組隊遊戲的話,不過我相信這種複雜的題目,就需要更多工程的努力與理論的考驗了。


上一篇
Day26 Too_many_cooks 飯飯煮起來!
下一篇
Day28 MADDPG multiagent-particle-envs
系列文
ㄟ唉廚房交響樂 多智能的煮飯秀30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言