iT邦幫忙

鐵人檔案

第 12 屆 iThome 鐵人賽
回列表
AI & Data

從根本學習Reinforcement Learning 系列

有鑑於強化學習的中文教學很多是直接從算法的角度切入,常使人無法理解其中的內涵。本系列目的在於讓對強化學習有興趣的人,以最少量的數學知識來了解算法中的數學意義。並搭配openAi提供的Gym環境實際操作。以漸進式的方式來了解強化學習的各種演算法。

參賽天數 12 天 | 共 12 篇文章 | 13 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day01]強化學習是甚麼?

前言 大家好,第一次寫系列技術文章,如果內容有錯誤或想討論都歡迎留言!此系列主要以Reinforcement Learning: An Introduction...

2020-09-01 ‧ 由 hankla 分享
DAY 2

[Day02]馬可夫決策過程

前言 昨天我們簡單介紹了Reinforcement Learning的緣由,今天內容為貫穿整個Reinforcement Learning的要素:Markov...

2020-09-02 ‧ 由 hankla 分享
DAY 3

[Day03]貝爾曼方程

前言 很多常見的強化學習算法都是根據貝爾曼方程來的,我們可以把強化學習的目標,用Value Function來表示。之後我們只要求這個Value Functio...

2020-09-03 ‧ 由 hankla 分享
DAY 4

[Day04]動態規劃

前言 今天會透過Dynamic Programming來解Bellman Function,理解Policy Iteration的原理,並簡單介紹明天會用到的t...

2020-09-04 ‧ 由 hankla 分享
DAY 5

[Day05]Policy Iteration and Value Iteration

前言 Dynamic programming可以幫助我們算出Value Function,今天就來實際實做兩種Dynamic programming方法:Pol...

2020-09-05 ‧ 由 hankla 分享
DAY 6

[Day06]蒙地卡羅方法

前言 我們不一定會知道環境的Dynamic,昨天的Taxi環境gym好心提供給我們,但如果像是更複雜的環境,比如自駕車、21點、圍棋等等。如果要將所有機率算出來...

2020-09-06 ‧ 由 hankla 分享
DAY 7

[Day07]On-Policy and Off-Policy

前言 昨天我們用-greedy來當作我們的目標policy,並用同樣的policy來與環境互動,這樣跟我們的目標好像有點衝突,一邊要學習optimal poli...

2020-09-07 ‧ 由 hankla 分享
DAY 8

[Day08]時序差分學習

前言 Monte Carlo Method需要等到整個episode跑完才能更新,如果episode需要很多step才能結束的話會怎樣?如果你拿Monte Ca...

2020-09-08 ‧ 由 hankla 分享
DAY 9

[Day09]Sarsa & Q Learning (1)

前言 今天會以昨天講的TD Learning,來介紹兩種TD Learning中最有名的方法,Sarsa與Q Learning。 Sarsa 昨天TD Lear...

2020-09-09 ‧ 由 hankla 分享
DAY 10

[Day10]Sarsa & Q Learning (2)

前言 今天將會用Sarsa與Q Learning,來挑戰Taxi環境。之前Monte Carlo Methood在taxi環境上會有收斂過久的問題,這是因為Mo...

2020-09-10 ‧ 由 hankla 分享