iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

強化學習 系列

以本系列文以介紹強化學習的數學理論、演算法與 Python 實作。

鐵人鍊成 | 共 30 篇文章 | 34 人訂閱 訂閱系列文 RSS系列文
DAY 11

強化學習筆記 Day 11

前言 昨天我們實作策略迭代 (Policy Iteration),在實作中,我們重複進行「策略評估」與「策略增進」這兩個步驟。那麼,我們有沒有辦法把這兩個步驟合...

2018-10-20 ‧ 由 dbgchamp 分享
DAY 12

強化學習筆記 Day 12

前言 我們昨天說明了價值迭代方法,至此介紹完使用動態規劃,求解價值函數的方法。在進入另外兩個方法 (「蒙地卡羅方法」與「 TD learning」) 之前,我們...

2018-10-21 ‧ 由 dbgchamp 分享
DAY 13

強化學習筆記 Day 13

前言 昨天介紹完使用動態規劃,計算價值函數的方法,今天我們要進入使用蒙地卡羅,計算價值函數的方法。 蒙地卡羅 介紹 蒙地卡羅 是一個很漂亮的地方 是一種使用大量...

2018-10-22 ‧ 由 dbgchamp 分享
DAY 14

強化學習筆記 Day 14

前言 我們昨天提到一些關於蒙地卡羅方法的介紹,我們可以知道蒙地卡羅是一種透過重複大量試驗,逼近數值的方法。那麼,要怎麼把這個方法用於估計價值函數呢? 價值估計...

2018-10-23 ‧ 由 dbgchamp 分享
DAY 15

強化學習筆記 Day 15

前言 昨天以 GridWorld 說明提到如何使用原始定義,以及蒙地卡羅的想法,實現計算狀態價值的方法。今天我們要針對昨天所說的內容進行實作。 實作價值估計 模...

2018-10-24 ‧ 由 dbgchamp 分享
DAY 16

強化學習筆記 Day 16

前言 昨天我們實作使用蒙地卡羅方法,進行狀態價值估計。不過昨天並沒有一口氣計算所有的狀態價值,因為獲得狀態價值這件事,在使用蒙地卡羅方法中,不是太重要的一件事。...

2018-10-25 ‧ 由 dbgchamp 分享
DAY 17

強化學習方法 Day 17

前言 昨天說明了在蒙地卡羅方法中,狀態價值並不是一個關鍵的數值,原因在於計算動作價值中沒有使用。使用蒙地卡羅方法時,需要的是大量模擬真實情境,並不像動態規劃方法...

2018-10-26 ‧ 由 dbgchamp 分享
DAY 18

強化學習筆記 Day 18

前言 昨天我們提到的例子中,說明在蒙地卡羅方法中使用貪婪法,可能不會收斂於最佳動作的情況。並提到在 GridWorld 中,如果使用不同的設定,例如:「初始化方...

2018-10-27 ‧ 由 dbgchamp 分享
DAY 19

強化學習筆記 Day 19

前言 昨天我們提到 -greedy 方法,讓我們的模型有一定的機會,嘗試執行沒有用過的動作,增加模型找到真正最佳動作的機會。 實作 Monte Carlo C...

2018-10-28 ‧ 由 dbgchamp 分享
DAY 20

強化學習筆記 Day 20

前言 昨天時做了蒙地卡羅控制 (Monte Carlo Control),透過實作模擬我們可以得到各狀態下,適合的動作為何。今天針對昨天時做出的結果,說明一些蒙...

2018-10-29 ‧ 由 dbgchamp 分享