經過了一天的訓練,不知道各位的機器人有沒有從中學習到甚麼,今天會分享一下我在訓練前中後期的一些情況。
訓練前期因為機器人還完全不知道該怎麼移動,所以基本上所有移動情形的機率會一樣,看起來就像在原地抽搐,這是很正常的,需要看看隨著時間推進,有沒有進步的趨勢。我們所要做的就是像保母一樣好好照顧程式。
影片經過4倍加速
中期可以看到R2D2可以慢慢往目標物靠近了,不過還是會有一些小問題,讓他沒辦法好好碰到目標點。但有看到進步就足夠欣慰了。
此時R2D2基本上都可以往目標點前進了,雖然達成任務的機率也不是100%,不過這也很正常,我們需要做的就是盡可能的提升成功的機率,能100%那當然是最好的!
影片經過4倍加速
訓練太久可能會造成訓練成效降低,所幸stable-baselines3有一個callback的功能可以根據情況提早停止訓練。詳情可以看看底下參考資料。
今天分享了訓練的過程,沒梗的我(並沒有)接下來想帶大家認識模糊控制,具體細節明天開始會介紹。之後各位可以試試看將觀察值模糊化過後的訓練成果有沒有比較好。
Callbacks - Stable Baselines3 1.6.1a4 documentation