iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

強化學習 系列

以本系列文以介紹強化學習的數學理論、演算法與 Python 實作。

鐵人鍊成 | 共 30 篇文章 | 38 人訂閱 訂閱系列文 RSS系列文
DAY 1

強化學習筆記 Day 1

前言 本系列文為個人研究強化學習時,所作的一些筆記,主要的閱讀材料為 Sutton 所著的 Reinforcement Learning: An Introdu...

2018-10-10 ‧ 由 dbgchamp 分享
DAY 2

強化學習筆記 Day 2

前言 昨天我們簡介強化學習的基本概念,並在最後提到 馬可夫決策過程 。不過它有許多專有名詞與性質,今天我們先說明它的簡化版 ─ 馬可夫鏈。 馬可夫鏈 (Mar...

2018-10-11 ‧ 由 dbgchamp 分享
DAY 3

強化學習筆記 Day 3

前言 昨天提到馬可夫鏈,說明這是一個描述「一連串相關事件所組成的系統,會怎麼隨著時間變化」的數學模型。並提到可以用這個方法計算第 n 次觀察時,小明各狀態的機率...

2018-10-12 ‧ 由 dbgchamp 分享
DAY 4

強化學習筆記 Day4

前言 昨天我們說明了馬可夫鏈,並了解馬可夫鏈會收斂的條件與過程,今天我們要正式進入與強化學習有關的馬可夫決策過程。 馬可夫決策過程 和馬可夫鏈比起來,馬可夫決策...

2018-10-13 ‧ 由 dbgchamp 分享
DAY 5

強化學習筆記 Day 5

前言 昨天我們提到,透過所處狀態、動作、以及移動後的狀態,可以根據獎勵函數獲得回饋。然而獲得這些資訊後,評估下一次遇到這個狀況,要採取什麼動作,需要透過 價值函...

2018-10-14 ‧ 由 dbgchamp 分享
DAY 6

強化學習筆記 Day6

前言 昨天我們定義價值函數,透過數學家的定義,我們可以找到狀態與動作的價值。不過用手算這個東西很可怕,在 Sutton 書中,第四章開頭處點出有三種方法,可以幫...

2018-10-15 ‧ 由 dbgchamp 分享
DAY 7

強化學習筆記 Day7

前言 昨天我們已經推導出貝爾曼方程,透過這個數學式,我們可以實現估計價值。在實務上,動態規劃適用迭代的方式,計算狀態或動作的價值。在書中提到有兩種迭代的方法,第...

2018-10-16 ‧ 由 dbgchamp 分享
DAY 8

強化學習筆記 Day8

前言 昨天我們提到使用策略迭代的方式,讓我們可以實作計算狀態價值。並給出了一個 GridWorld 的範例,今天我們將要使用策略迭代,在這個情況下實作計算狀態價...

2018-10-17 ‧ 由 dbgchamp 分享
DAY 9

強化學習筆記 Day9

前言 昨天我們用迭代的方式,實作計算狀態價值這件事,並在最後留下兩個問題: 如果 gamma 更大或更小,結果會有什麼改變? 目前是隨機動作,是否有決定動作的...

2018-10-18 ‧ 由 dbgchamp 分享
DAY 10

強化學習筆記 Day10

前言 昨天提到策略增進,是一個使用計算出的狀態價值,去選擇在每個狀態下,最好的動作的方法。其中,我們在選擇動作時,使用動作價值函數計算動作價值,並使用動作價值最...

2018-10-19 ‧ 由 dbgchamp 分享