iT邦幫忙

2023 iThome 鐵人賽

DAY 22
0

Q學習( Q - Learning )

在不同狀態下採取不同動作的價值(Q值),來最大化長期獎勵
這個學習方法跟模型無關,適合用在具有馬可夫性質環境的情況
當前的狀態包含足夠的資訊,可以完全描述過去和未來的環境狀態

  1. 初始化 Q 表格:
    創建一個 Q 表格,跟蹤每個狀態-動作對的 Q 值
    表格的大小由環境中的狀態數和動作數確定
    初始 Q 值可以設置為零或任何其他適當的值

  2. 選擇動作:
    選擇一種策略來決定在當前狀態下執行的動作
    這代表可能會採取隨機動作來鼓勵探索,來選擇具有最高 Q 值的動作

  3. 執行動作:
    在當前狀態下執行所選的動作,然後觀察環境中的新狀態和相應的獎勵

  4. 更新Q值:
    使用公式來更新Q值
    New Q(s, a) = Q(s, a) + α * [R + γ * max(Q(s', a')) - Q(s, a)]

Q(s, a) 是在狀態 s 下執行動作 a 的 Q 值
α 是學習率,控制 Q 值更新的幅度
R 是在執行動作 a 後觀察到的即時獎勵
γ 是折扣因子,用於考慮未來的獎勵
s' 是執行動作 a 後觀察到的新狀態
a' 是在新狀態 s' 下選擇的動作

  1. 重複 2 到 4 :
    繼續執行動作、觀察獎勵並更新 Q 值,直到達到停止條件(達到固定的訓練次數或 Q 值收斂)

參考資料

https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/0000017C0D6897CD000000296375706F795F72656C656173655155455354


上一篇
強化學習~馬可夫決策過程( MDP )
下一篇
強化學習~SARSA
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言