強化學習 :: 2019 iT 邦幫忙鐵人賽

dbgchamp (dbgchamp)

iT邦新手 5 級 ‧ 點數 79

9611

累計瀏覽數

7人

在追蹤

站內簡訊追蹤

鐵人檔案

2019 iT 邦幫忙鐵人賽

回列表

AI & Data

強化學習系列

以本系列文以介紹強化學習的數學理論、演算法與 Python 實作。

鐵人鍊成｜共 30 篇文章｜ 38 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 2060 瀏覽

DAY 21

強化學習筆記 Day 21

前言昨天我們說明了一些蒙地卡羅方法的特色，這些特色使得蒙地卡羅方法有一些不穩定，但我們可以靠分工來彌補這個缺點。今天我們要介紹 Temporal Differ...

2018-10-30 ‧ 由 dbgchamp 分享

0 Like 0 留言 1919 瀏覽

DAY 22

強化學習筆記 Day 22

前言昨天提到 TD learning 方法、介紹其思路，以及說明這個方法向之前介紹的兩個方法 (動態規劃、蒙地卡羅) 借鏡之處。今天我們將實作以 TD lea...

2018-10-31 ‧ 由 dbgchamp 分享

0 Like 0 留言 5099 瀏覽

DAY 23

強化學習筆記 Day 23

前言昨天說明以 TD learning 的方式評估狀態價值，現在我們有狀態函數後，下一步就是考慮怎麼獲得動作價值，並加以實現控制。 TD Control 動作...

2018-11-01 ‧ 由 dbgchamp 分享

0 Like 0 留言 2355 瀏覽

DAY 24

強化學習筆記 Day 24

前言昨天說到強化學習中 TD Learning 方法下，有分為 on-policy 與 off-policy 演算法。在說明 on-policy 與 off-...

2018-11-02 ‧ 由 dbgchamp 分享

0 Like 0 留言 2802 瀏覽

DAY 25

強化學習筆記 Day 25

前言昨天實作 SARSA 演算法，今天要實作 off-policy 的 TD Learning 方法：Q-Learning。由於內容大致上相同，因此今天會著重...

2018-11-03 ‧ 由 dbgchamp 分享

0 Like 0 留言 2554 瀏覽

DAY 26

強化學習筆記 Day 26

前言昨天提到在 Sutton 的書中，說明 SARSA 比 Q-Learning "保守"，並可以透過 cliff walking 這個例...

2018-11-04 ‧ 由 dbgchamp 分享

0 Like 0 留言 3946 瀏覽

DAY 27

強化學習筆記 Day 27

前言昨天提到 Cliff Walking，說提供使用 SARSA 與 Q-Learning 兩種算法的結果，我們使用 Episode per Reward 評...

2018-11-05 ‧ 由 dbgchamp 分享

0 Like 0 留言 3950 瀏覽

DAY 28

強化學習筆記 Day 28

前言昨天總結了 TD Learning 的方法，截至目前為止，我們介紹了許多估計價值的方法。不過所有的方法，我們處理的狀態都是離散的，不論是 GridWorl...

2018-11-06 ‧ 由 dbgchamp 分享

0 Like 0 留言 2161 瀏覽

DAY 29

強化學習筆記 Day 29

前言昨天提到要使用函數逼近的方式代替原本的表格法，並說明可以使用梯度下降法更新價值，但在說明價值之前，要在介紹一個稱為 Eligibility Traces，...

2018-11-07 ‧ 由 dbgchamp 分享

0 Like 0 留言 1894 瀏覽

DAY 30

強化學習筆記 Day 30

前言昨天我們提到 Eligibility Traces，透過這個東西以及 TD Learning，推論出新的估計狀態價值方法 TD()。今天將回到使用梯度下降...

2018-11-08 ‧ 由 dbgchamp 分享

dbgchamp的鐵人檔案

dbgchamp的收藏

dbgchamp的追蹤

dbgchamp的Like

dbgchamp的紀錄

dbgchamp的訂閱列表

鐵人檔案

強化學習 系列

標記使用者

強化學習系列