強化學習 :: 2019 iT 邦幫忙鐵人賽

dbgchamp (dbgchamp)

iT邦新手 5 級 ‧ 點數 79

11839

累計瀏覽數

7人

在追蹤

站內簡訊追蹤

鐵人檔案

2019 iT 邦幫忙鐵人賽

回列表

AI & Data

強化學習系列

以本系列文以介紹強化學習的數學理論、演算法與 Python 實作。

鐵人鍊成｜共 30 篇文章｜ 38 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 8706 瀏覽

DAY 1

強化學習筆記 Day 1

前言本系列文為個人研究強化學習時，所作的一些筆記，主要的閱讀材料為 Sutton 所著的 Reinforcement Learning: An Introdu...

2018-10-10 ‧ 由 dbgchamp 分享

0 Like 0 留言 9482 瀏覽

DAY 2

強化學習筆記 Day 2

前言昨天我們簡介強化學習的基本概念，並在最後提到馬可夫決策過程。不過它有許多專有名詞與性質，今天我們先說明它的簡化版 ─ 馬可夫鏈。馬可夫鏈 (Mar...

2018-10-11 ‧ 由 dbgchamp 分享

0 Like 0 留言 6898 瀏覽

DAY 3

強化學習筆記 Day 3

前言昨天提到馬可夫鏈，說明這是一個描述「一連串相關事件所組成的系統，會怎麼隨著時間變化」的數學模型。並提到可以用這個方法計算第 n 次觀察時，小明各狀態的機率...

2018-10-12 ‧ 由 dbgchamp 分享

0 Like 0 留言 5696 瀏覽

DAY 4

強化學習筆記 Day4

前言昨天我們說明了馬可夫鏈，並了解馬可夫鏈會收斂的條件與過程，今天我們要正式進入與強化學習有關的馬可夫決策過程。馬可夫決策過程和馬可夫鏈比起來，馬可夫決策...

2018-10-13 ‧ 由 dbgchamp 分享

0 Like 0 留言 4593 瀏覽

DAY 5

強化學習筆記 Day 5

前言昨天我們提到，透過所處狀態、動作、以及移動後的狀態，可以根據獎勵函數獲得回饋。然而獲得這些資訊後，評估下一次遇到這個狀況，要採取什麼動作，需要透過價值函...

2018-10-14 ‧ 由 dbgchamp 分享

0 Like 0 留言 4922 瀏覽

DAY 6

強化學習筆記 Day6

前言昨天我們定義價值函數，透過數學家的定義，我們可以找到狀態與動作的價值。不過用手算這個東西很可怕，在 Sutton 書中，第四章開頭處點出有三種方法，可以幫...

2018-10-15 ‧ 由 dbgchamp 分享

0 Like 0 留言 4983 瀏覽

DAY 7

強化學習筆記 Day7

前言昨天我們已經推導出貝爾曼方程，透過這個數學式，我們可以實現估計價值。在實務上，動態規劃適用迭代的方式，計算狀態或動作的價值。在書中提到有兩種迭代的方法，第...

2018-10-16 ‧ 由 dbgchamp 分享

0 Like 0 留言 5971 瀏覽

DAY 8

強化學習筆記 Day8

前言昨天我們提到使用策略迭代的方式，讓我們可以實作計算狀態價值。並給出了一個 GridWorld 的範例，今天我們將要使用策略迭代，在這個情況下實作計算狀態價...

2018-10-17 ‧ 由 dbgchamp 分享

0 Like 0 留言 3560 瀏覽

DAY 9

強化學習筆記 Day9

前言昨天我們用迭代的方式，實作計算狀態價值這件事，並在最後留下兩個問題：如果 gamma 更大或更小，結果會有什麼改變？目前是隨機動作，是否有決定動作的...

2018-10-18 ‧ 由 dbgchamp 分享

0 Like 0 留言 3631 瀏覽

DAY 10

強化學習筆記 Day10

前言昨天提到策略增進，是一個使用計算出的狀態價值，去選擇在每個狀態下，最好的動作的方法。其中，我們在選擇動作時，使用動作價值函數計算動作價值，並使用動作價值最...

2018-10-19 ‧ 由 dbgchamp 分享

dbgchamp的鐵人檔案

dbgchamp的收藏

dbgchamp的追蹤

dbgchamp的Like

dbgchamp的紀錄

dbgchamp的訂閱列表

鐵人檔案

強化學習 系列

標記使用者

強化學習系列