iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 9
0
AI & Data

強化學習系列 第 9

強化學習筆記 Day9

前言

昨天我們用迭代的方式,實作計算狀態價值這件事,並在最後留下兩個問題:

  • 如果 gamma 更大或更小,結果會有什麼改變?
  • 目前是隨機動作,是否有決定動作的方法呢?

針對第一個問題,可以自行改寫參數中的 gamma 測試。或是簡單看一下狀態價值的定義,就可以猜到可能會發生的是了。假設 https://ithelp.ithome.com.tw/upload/images/20181018/20111741Qu6bq4mX8T.png ,則 https://ithelp.ithome.com.tw/upload/images/20181018/20111741lOEZTg90eR.png

接著,我們討論決定動作的方法。

策略增進 (Policy Improvement)

我們之前一直著重在狀態價值,現在我們需要使用動作價值了,先來回顧一下定義:
https://ithelp.ithome.com.tw/upload/images/20181018/20111741LC7VlF82GA.png

在計算完狀態價值後,我們可以使用「狀態價值」與「動作價值函數」,計算在每個狀態下,每個動作的動作價值。那麼要處理的問題,就變成是要怎麼分配每個動作產生的機率呢?

貪婪法 (greedy method)

作者在這裡導入貪婪法,也就是說,我們只選擇在這個狀態下,最好的動作,產生其他動作機率為 0 。為了方便,我們將使用貪婪法的這個策略記作 https://ithelp.ithome.com.tw/upload/images/20181018/20111741aaWAoKtWCD.png 。並將透過貪婪法決定的動作記為
https://ithelp.ithome.com.tw/upload/images/20181018/20111741TPARtcLPOH.png

既然我們現在有更好的動作了,那是不是可以再回去更新狀態價值,如此一來,我們對狀態價值的判斷,就會比原本隨機動作的情況更準確。
https://ithelp.ithome.com.tw/upload/images/20181018/20111741ymlcelpZ0W.png

總結來說,我們目前有「計算狀態價值的方法」、「計算最佳動作的方法」,明天我們要把這兩個東西組合起來,完成策略迭代的整體過程。


上一篇
強化學習筆記 Day8
下一篇
強化學習筆記 Day10
系列文
強化學習30

尚未有邦友留言

立即登入留言