強化學習 :: 2019 iT 邦幫忙鐵人賽

dbgchamp (dbgchamp)

iT邦新手 5 級 ‧ 點數 79

12304

累計瀏覽數

7人

在追蹤

站內簡訊追蹤

鐵人檔案

2019 iT 邦幫忙鐵人賽

回列表

AI & Data

強化學習系列

以本系列文以介紹強化學習的數學理論、演算法與 Python 實作。

鐵人鍊成｜共 30 篇文章｜ 38 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 3545 瀏覽

DAY 11

強化學習筆記 Day 11

前言昨天我們實作策略迭代 (Policy Iteration)，在實作中，我們重複進行「策略評估」與「策略增進」這兩個步驟。那麼，我們有沒有辦法把這兩個步驟合...

2018-10-20 ‧ 由 dbgchamp 分享

0 Like 0 留言 2421 瀏覽

DAY 12

強化學習筆記 Day 12

前言我們昨天說明了價值迭代方法，至此介紹完使用動態規劃，求解價值函數的方法。在進入另外兩個方法 (「蒙地卡羅方法」與「 TD learning」) 之前，我們...

2018-10-21 ‧ 由 dbgchamp 分享

0 Like 0 留言 3173 瀏覽

DAY 13

強化學習筆記 Day 13

前言昨天介紹完使用動態規劃，計算價值函數的方法，今天我們要進入使用蒙地卡羅，計算價值函數的方法。蒙地卡羅介紹蒙地卡羅是一個很漂亮的地方是一種使用大量...

2018-10-22 ‧ 由 dbgchamp 分享

0 Like 0 留言 2028 瀏覽

DAY 14

強化學習筆記 Day 14

前言我們昨天提到一些關於蒙地卡羅方法的介紹，我們可以知道蒙地卡羅是一種透過重複大量試驗，逼近數值的方法。那麼，要怎麼把這個方法用於估計價值函數呢？價值估計...

2018-10-23 ‧ 由 dbgchamp 分享

1 Like 0 留言 2026 瀏覽

DAY 15

強化學習筆記 Day 15

前言昨天以 GridWorld 說明提到如何使用原始定義，以及蒙地卡羅的想法，實現計算狀態價值的方法。今天我們要針對昨天所說的內容進行實作。實作價值估計模...

2018-10-24 ‧ 由 dbgchamp 分享

0 Like 0 留言 2367 瀏覽

DAY 16

強化學習筆記 Day 16

前言昨天我們實作使用蒙地卡羅方法，進行狀態價值估計。不過昨天並沒有一口氣計算所有的狀態價值，因為獲得狀態價值這件事，在使用蒙地卡羅方法中，不是太重要的一件事。...

2018-10-25 ‧ 由 dbgchamp 分享

0 Like 0 留言 2317 瀏覽

DAY 17

強化學習方法 Day 17

前言昨天說明了在蒙地卡羅方法中，狀態價值並不是一個關鍵的數值，原因在於計算動作價值中沒有使用。使用蒙地卡羅方法時，需要的是大量模擬真實情境，並不像動態規劃方法...

2018-10-26 ‧ 由 dbgchamp 分享

0 Like 0 留言 2346 瀏覽

DAY 18

強化學習筆記 Day 18

前言昨天我們提到的例子中，說明在蒙地卡羅方法中使用貪婪法，可能不會收斂於最佳動作的情況。並提到在 GridWorld 中，如果使用不同的設定，例如：「初始化方...

2018-10-27 ‧ 由 dbgchamp 分享

0 Like 1 留言 2397 瀏覽

DAY 19

強化學習筆記 Day 19

前言昨天我們提到 -greedy 方法，讓我們的模型有一定的機會，嘗試執行沒有用過的動作，增加模型找到真正最佳動作的機會。實作 Monte Carlo C...

2018-10-28 ‧ 由 dbgchamp 分享

0 Like 0 留言 1987 瀏覽

DAY 20

強化學習筆記 Day 20

前言昨天時做了蒙地卡羅控制 (Monte Carlo Control)，透過實作模擬我們可以得到各狀態下，適合的動作為何。今天針對昨天時做出的結果，說明一些蒙...

2018-10-29 ‧ 由 dbgchamp 分享

dbgchamp的鐵人檔案

dbgchamp的收藏

dbgchamp的追蹤

dbgchamp的Like

dbgchamp的紀錄

dbgchamp的訂閱列表

鐵人檔案

強化學習 系列

標記使用者

強化學習系列