iT邦幫忙

q-learning相關文章
共有 2 則文章
AI 高中生的自我學習 系列 第 28

技術 Day 28 - 強化學習 Reinforcement Learning(2)

時差學習 Temporal difference learning link 時差學習是通過boottraping自助(link)從值函數的當前估計中進行學習。...

AI 高中生的自我學習 系列 第 27

技術 Day 27 - 強化學習 Reinforcement Learning(1)

馬可夫決策過程 Markov decision process MDP 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Proce...