Day8 常見的強化學習算法 Value-Based 及 Policy-Based 深度強化學習(Deep Reinforcement Learning, DR...
時差學習 Temporal difference learning link 時差學習是通過boottraping自助(link)從值函數的當前估計中進行學習。...
馬可夫決策過程 Markov decision process MDP 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Proce...