有鑑於強化學習的中文教學很多是直接從算法的角度切入,常使人無法理解其中的內涵。本系列目的在於讓對強化學習有興趣的人,以最少量的數學知識來了解算法中的數學意義。並搭配openAi提供的Gym環境實際操作。以漸進式的方式來了解強化學習的各種演算法。
前言 在介紹n-step Learning之前,我們用cliffwalking來比較Q Learning與Sarsa之間的差異,之後再簡單介紹一下n-step...
前言 dyna-Q是一種運用model與value來一起更新Value Function的方法。在與環境互動有困難的時候相當有用。 Model model的概念...