iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

強化學習 系列

以本系列文以介紹強化學習的數學理論、演算法與 Python 實作。

鐵人鍊成 | 共 30 篇文章 | 34 人訂閱 訂閱系列文 RSS系列文
DAY 21

強化學習筆記 Day 21

前言 昨天我們說明了一些蒙地卡羅方法的特色,這些特色使得蒙地卡羅方法有一些不穩定,但我們可以靠分工來彌補這個缺點。今天我們要介紹 Temporal Differ...

2018-10-30 ‧ 由 dbgchamp 分享
DAY 22

強化學習筆記 Day 22

前言 昨天提到 TD learning 方法、介紹其思路,以及說明這個方法向之前介紹的兩個方法 (動態規劃、蒙地卡羅) 借鏡之處。今天我們將實作以 TD lea...

2018-10-31 ‧ 由 dbgchamp 分享
DAY 23

強化學習筆記 Day 23

前言 昨天說明以 TD learning 的方式評估狀態價值,現在我們有狀態函數後,下一步就是考慮怎麼獲得動作價值,並加以實現控制。 TD Control 動作...

2018-11-01 ‧ 由 dbgchamp 分享
DAY 24

強化學習筆記 Day 24

前言 昨天說到強化學習中 TD Learning 方法下,有分為 on-policy 與 off-policy 演算法。在說明 on-policy 與 off-...

2018-11-02 ‧ 由 dbgchamp 分享
DAY 25

強化學習筆記 Day 25

前言 昨天實作 SARSA 演算法,今天要實作 off-policy 的 TD Learning 方法:Q-Learning。由於內容大致上相同,因此今天會著重...

2018-11-03 ‧ 由 dbgchamp 分享
DAY 26

強化學習筆記 Day 26

前言 昨天提到在 Sutton 的書中,說明 SARSA 比 Q-Learning "保守",並可以透過 cliff walking 這個例...

2018-11-04 ‧ 由 dbgchamp 分享
DAY 27

強化學習筆記 Day 27

前言 昨天提到 Cliff Walking,說提供使用 SARSA 與 Q-Learning 兩種算法的結果,我們使用 Episode per Reward 評...

2018-11-05 ‧ 由 dbgchamp 分享
DAY 28

強化學習筆記 Day 28

前言 昨天總結了 TD Learning 的方法,截至目前為止,我們介紹了許多估計價值的方法。不過所有的方法,我們處理的狀態都是離散的,不論是 GridWorl...

2018-11-06 ‧ 由 dbgchamp 分享
DAY 29

強化學習筆記 Day 29

前言 昨天提到要使用函數逼近的方式代替原本的表格法,並說明可以使用梯度下降法更新價值,但在說明價值之前,要在介紹一個稱為 Eligibility Traces,...

2018-11-07 ‧ 由 dbgchamp 分享
DAY 30

強化學習筆記 Day 30

前言 昨天我們提到 Eligibility Traces,透過這個東西以及 TD Learning,推論出新的估計狀態價值方法 TD()。今天將回到使用梯度下降...

2018-11-08 ‧ 由 dbgchamp 分享