大家許久不見皮卡皮卡!從2019年的強化學習小恐龍系列已經過了四年,很久沒參與鐵人的競賽,但因為忙於工作還有考試關係,想參與一直沒機會,But 近期,有些空閒時間下來,決定跳下來重投入技術的文章撰寫,希望或多或少可以幫助到一些也在路上,努力與奮戰的人。
皮卡皮卡!總之呢,這系列規劃寫多智能體的文章,也是很久前就想寫的內容。
圖片來源:寶可夢日本官網
多智能體在解決許多複雜的環境所面臨的問題,像是無人工廠的移動與規劃,都會需要部屬類似的演算法。相比與集中式的管理與指令,多智能體需要演算法之間學習如何溝通與動態調整策略。它的優點具有彈性的空間與快速反應的好處。當然在資源成本足夠的情況下,讓一個超級電腦計算是比較安穩的,但在一些需要即時反應、或是不確定性很大的場景,讓演算法自己完成動態規劃,是一個更靈活的解決方案。
當然它的缺點顯而易見,就是我們學習上其實有很多困難,與模型無法收斂的情況,像是零合博奕,我們智能體可能會互相爭奪資源或者妨礙,之後的章節會再介紹。
最終我們也會搭一個實做,讓大家可以玩到多智能體的專案,滿足探索與求知欲望XD
接下來大概會以幾個範圍去讓大家慢慢熟悉這一塊
可能會空出幾篇,來介紹最近很紅的AI社群,它的論文很有意思,關於反思(Reflection)與檢索(Retrieve)是完成這個工作的兩個重要元素。
大概整個系列會這幾塊循序漸進的介紹,如果有什麼補充或想知道的,也歡迎留言!
其實會想介紹這一塊,還有一個原因是因為Open AI 關於這方面的研究,很像生命體延伸出的智慧,有點像是完成很複雜的任務後,簡單的不用學也可以上手,這是很令人驚嘆的。
我們人類為了可以更好的適應環境,發展出社會習慣、共同狩獵、採集,甚至高階到一些言語以及訊息的交流,Multi-agents也有對這一塊做設計。讓我不禁聯想,或許智能與意識是高階任務達成的一種副產物,它不是刻意設計,但因為我們成功演化出複雜的合作關係,所以得到這種結果。在許多社會學的研究也有點出這方面的可能性,當然還有很多前提是被排除的,但我個人覺得,這或許也是發展出通用化智能體的一種可能。
對於像是技術人與科學家來說,這是一種浪漫的追求吧!希望接下來三十天的文章與內容,可以讓大家有所收穫或者滿足,有什麼疑惑或問題都歡迎留言,那麼咱們明天見!