iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 14
0
AI & Data

強化學習系列 第 14

強化學習筆記 Day 14

  • 分享至 

  • xImage
  •  

前言

我們昨天提到一些關於蒙地卡羅方法的介紹,我們可以知道蒙地卡羅是一種透過重複大量試驗,逼近數值的方法。那麼,要怎麼把這個方法用於估計價值函數呢?

價值估計

重複試驗對象

昨天在估計 https://chart.googleapis.com/chart?cht=tx&chl=%5Cpi 的時候,我們使用「面積比例」這個方式估算,因為面積與 https://chart.googleapis.com/chart?cht=tx&chl=%5Cpi 有關。因此在估計價值函數時,也需要找與價值函數有關,且可以使用大量試驗獲得數值,數學家看上的是回饋這個數值。

之前在討論獎勵函數時,我們給了這樣的定義:
https://ithelp.ithome.com.tw/upload/images/20181023/20111741nnyoA2DghO.png

這裡的 https://chart.googleapis.com/chart?cht=tx&chl=G_%7Bt%7D 指的是從現在這個狀態,到整個過程結束時,我們可以獲得的回饋。用 GridWorld 為例子做說明,假設我們現在在狀態 1,移動到終點 (即「整個過程結束」) 的狀態轉移情況可能有:

  • https://ithelp.ithome.com.tw/upload/images/20181023/20111741xY0pQzvF6X.png
  • https://ithelp.ithome.com.tw/upload/images/20181023/20111741KOTKHrvwMe.png

還有許多 族繁不及備載 的情況,這邊些只列出兩個,方便等一下說明。

連結回饋與價值函數

事實上,透過數學定義,我們就可以將獎勵與價值函數牽扯上關係,定義如下:
https://ithelp.ithome.com.tw/upload/images/20181023/20111741GVAKjVPB9Q.png

看起來有點熟悉,又不太確定在哪裡看過嗎?沒錯,因為我們之前在動態規劃方法時,只看了這個式子一眼,就把它拆成遞迴的形式了。

這個定義的形式出現在 Day 5

好的,我們繼續。在動態規劃方法時,我們透過遞迴形式逼近價值函數。而現在,我們透過重複試驗,真的取得許多https://chart.googleapis.com/chart?cht=tx&chl=G_%7Bt%7D ,現在我們只需要取平均即可。繼續使用上面 GridWorld 的例子,假設 https://chart.googleapis.com/chart?cht=tx&chl=%5Cgamma = 0.9,則

  • https://ithelp.ithome.com.tw/upload/images/20181023/20111741xY0pQzvF6X.png
    可以得到 https://chart.googleapis.com/chart?cht=tx&chl=G_%7Bt%7D = -1

  • https://ithelp.ithome.com.tw/upload/images/20181023/20111741KOTKHrvwMe.png
    可以得到 https://chart.googleapis.com/chart?cht=tx&chl=G_%7Bt%7D = -1 -0.9 -0.81 - 0 = -2.71

那麼現在在狀態 1 ,我們計算出的狀態價值即為 https://ithelp.ithome.com.tw/upload/images/20181023/2011174111iJUUM3T9.png ,只要繼續上述的過程,就可以取得更多的試驗結果,更精確的估計狀態價值。


上一篇
強化學習筆記 Day 13
下一篇
強化學習筆記 Day 15
系列文
強化學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言