D23：強化學習訓練過程分享

2022 iThome 鐵人賽

DAY 23

自我挑戰組

高中生也可以！利用強化學習讓機器人動起來！系列第 23 篇

14th鐵人賽

golucky_sir

2022-09-24 15:09:51

1902 瀏覽

分享至

經過了一天的訓練，不知道各位的機器人有沒有從中學習到甚麼，今天會分享一下我在訓練前中後期的一些情況。

訓練前期

訓練前期因為機器人還完全不知道該怎麼移動，所以基本上所有移動情形的機率會一樣，看起來就像在原地抽搐，這是很正常的，需要看看隨著時間推進，有沒有進步的趨勢。我們所要做的就是像保母一樣好好照顧程式。

==train.gif

影片經過4倍加速

訓練中期

中期可以看到R2D2可以慢慢往目標物靠近了，不過還是會有一些小問題，讓他沒辦法好好碰到目標點。但有看到進步就足夠欣慰了。

訓練後期

此時R2D2基本上都可以往目標點前進了，雖然達成任務的機率也不是100%，不過這也很正常，我們需要做的就是盡可能的提升成功的機率，能100%那當然是最好的！

影片經過4倍加速

訓練太久

訓練太久可能會造成訓練成效降低，所幸stable-baselines3有一個callback的功能可以根據情況提早停止訓練。詳情可以看看底下參考資料。

結語

今天分享了訓練的過程，沒梗的我(並沒有)接下來想帶大家認識模糊控制，具體細節明天開始會介紹。之後各位可以試試看將觀察值模糊化過後的訓練成果有沒有比較好。

參考資料、網址

Callbacks - Stable Baselines3 1.6.1a4 documentation

D22：使用強化學習訓練自己的環境

D24：模糊控制(fuzzy control)介紹

系列文

高中生也可以！利用強化學習讓機器人動起來！共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

高中生也可以！利用強化學習讓機器人動起來！系列 第 23 篇