iT邦幫忙

q-learning相關文章
共有 3 則文章
鐵人賽 AI/ ML & Data DAY 8

技術 [Day8] 探討強化學習的秘密 - 策略與價值

Day8 常見的強化學習算法 Value-Based 及 Policy-Based 深度強化學習(Deep Reinforcement Learning, DR...

AI 高中生的自我學習 系列 第 28

技術 Day 28 - 強化學習 Reinforcement Learning(2)

時差學習 Temporal difference learning link 時差學習是通過boottraping自助(link)從值函數的當前估計中進行學習。...

AI 高中生的自我學習 系列 第 27

技術 Day 27 - 強化學習 Reinforcement Learning(1)

馬可夫決策過程 Markov decision process MDP 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Proce...