時差學習 Temporal difference learning link 時差學習是通過boottraping自助(link)從值函數的當前估計中進行學習。...
馬可夫決策過程 Markov decision process MDP 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Proce...
IT邦幫忙