2023 iThome 鐵人賽

DAY 22

0

AI & Data

機器學習新手行，相信你也行！系列第 22 篇

強化學習~ Q 學習

15th鐵人賽學習筆記

團隊好想放假大學

2023-10-07 22:44:37

785 瀏覽

分享至

Q學習（ Q - Learning ）

在不同狀態下採取不同動作的價值（Q值），來最大化長期獎勵
這個學習方法跟模型無關，適合用在具有馬可夫性質環境的情況
當前的狀態包含足夠的資訊，可以完全描述過去和未來的環境狀態

初始化 Q 表格：
創建一個 Q 表格，跟蹤每個狀態-動作對的 Q 值
表格的大小由環境中的狀態數和動作數確定
初始 Q 值可以設置為零或任何其他適當的值
選擇動作：
選擇一種策略來決定在當前狀態下執行的動作
這代表可能會採取隨機動作來鼓勵探索，來選擇具有最高 Q 值的動作
執行動作：
在當前狀態下執行所選的動作，然後觀察環境中的新狀態和相應的獎勵
更新Q值：
使用公式來更新Q值
New Q(s, a) = Q(s, a) + α * [R + γ * max(Q(s', a')) - Q(s, a)]

Q(s, a) 是在狀態 s 下執行動作 a 的 Q 值
α 是學習率，控制 Q 值更新的幅度
R 是在執行動作 a 後觀察到的即時獎勵
γ 是折扣因子，用於考慮未來的獎勵
s' 是執行動作 a 後觀察到的新狀態
a' 是在新狀態 s' 下選擇的動作

重複 2 到 4 ：
繼續執行動作、觀察獎勵並更新 Q 值，直到達到停止條件(達到固定的訓練次數或 Q 值收斂)

參考資料

https://www.cupoy.com/qa/club/ai_tw/0000016D6BA22D97000000016375706F795F72656C656173654B5741535354434C5542/0000017C0D6897CD000000296375706F795F72656C656173655155455354

強化學習~馬可夫決策過程（ MDP ）

強化學習~SARSA

系列文

機器學習新手行，相信你也行！共 30 篇

目錄

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙