有鑑於強化學習的中文教學很多是直接從算法的角度切入,常使人無法理解其中的內涵。本系列目的在於讓對強化學習有興趣的人,以最少量的數學知識來了解算法中的數學意義。並搭配openAi提供的Gym環境實際操作。以漸進式的方式來了解強化學習的各種演算法。
前言 大家好,第一次寫系列技術文章,如果內容有錯誤或想討論都歡迎留言!此系列主要以Reinforcement Learning: An Introduction...
前言 昨天我們簡單介紹了Reinforcement Learning的緣由,今天內容為貫穿整個Reinforcement Learning的要素:Markov...
前言 很多常見的強化學習算法都是根據貝爾曼方程來的,我們可以把強化學習的目標,用Value Function來表示。之後我們只要求這個Value Functio...
前言 今天會透過Dynamic Programming來解Bellman Function,理解Policy Iteration的原理,並簡單介紹明天會用到的t...
前言 Dynamic programming可以幫助我們算出Value Function,今天就來實際實做兩種Dynamic programming方法:Pol...
前言 我們不一定會知道環境的Dynamic,昨天的Taxi環境gym好心提供給我們,但如果像是更複雜的環境,比如自駕車、21點、圍棋等等。如果要將所有機率算出來...
前言 昨天我們用-greedy來當作我們的目標policy,並用同樣的policy來與環境互動,這樣跟我們的目標好像有點衝突,一邊要學習optimal poli...
前言 Monte Carlo Method需要等到整個episode跑完才能更新,如果episode需要很多step才能結束的話會怎樣?如果你拿Monte Ca...
前言 今天會以昨天講的TD Learning,來介紹兩種TD Learning中最有名的方法,Sarsa與Q Learning。 Sarsa 昨天TD Lear...
前言 今天將會用Sarsa與Q Learning,來挑戰Taxi環境。之前Monte Carlo Methood在taxi環境上會有收斂過久的問題,這是因為Mo...