iT邦幫忙

2022 iThome 鐵人賽

DAY 23
0

經過了一天的訓練,不知道各位的機器人有沒有從中學習到甚麼,今天會分享一下我在訓練前中後期的一些情況。

訓練前期

訓練前期因為機器人還完全不知道該怎麼移動,所以基本上所有移動情形的機率會一樣,看起來就像在原地抽搐,這是很正常的,需要看看隨著時間推進,有沒有進步的趨勢。我們所要做的就是像保母一樣好好照顧程式。

==train.gif

影片經過4倍加速

訓練中期

中期可以看到R2D2可以慢慢往目標物靠近了,不過還是會有一些小問題,讓他沒辦法好好碰到目標點。但有看到進步就足夠欣慰了。

訓練後期

此時R2D2基本上都可以往目標點前進了,雖然達成任務的機率也不是100%,不過這也很正常,我們需要做的就是盡可能的提升成功的機率,能100%那當然是最好的!

pred.gif

影片經過4倍加速

訓練太久

訓練太久可能會造成訓練成效降低,所幸stable-baselines3有一個callback的功能可以根據情況提早停止訓練。詳情可以看看底下參考資料。

結語

今天分享了訓練的過程,沒梗的我(並沒有)接下來想帶大家認識模糊控制,具體細節明天開始會介紹。之後各位可以試試看將觀察值模糊化過後的訓練成果有沒有比較好。

參考資料、網址

Callbacks - Stable Baselines3 1.6.1a4 documentation


上一篇
D22:使用強化學習訓練自己的環境
下一篇
D24:模糊控制(fuzzy control)介紹
系列文
高中生也可以!利用強化學習讓機器人動起來!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言