什麼是 DQN?
DQN(Deep Q-Network)是一種 強化學習(Reinforcement Learning, RL)方法,它將傳統的 Q-learning 與 深度神經網路(Deep Neural Network, DNN) 結合起來。
Q-learning 原本是用「表格」紀錄狀態-行動的價值(Q 值)。但當狀態空間太大(例如遊戲畫面中的每個像素)時,表格會變得不可能維護。
DQN 則用深度神經網路來逼近 Q 值,能處理像素級別的輸入,也能應付複雜環境。
換句話說,DQN 就像是一個 函數逼近器,幫助 AI Agent 預測「在某個狀態下採取某個行動後,可能得到的長期回報是多少」。
AI Agent 的角色
AI Agent 負責和環境互動:接收觀察 → 做決策 → 執行行動 → 收到回饋(獎勵)。
它不一定要用 DQN,可能用其他演算法(像是策略梯度法、進化演算法)。
DQN 的角色
DQN 幫助 AI Agent 評估每個可能的行動價值。
當 Agent 要決策時,它會把「當前狀態」丟給 DQN,DQN 輸出每個行動的 Q 值,Agent 再依此選擇最佳行動。
結合運作的流程
觀察環境:Agent 接收到環境的狀態(例如遊戲畫面)。
DQN 計算 Q 值:把這個狀態丟進神經網路,DQN 輸出每個可能行動的預測價值。
選擇行動:Agent 根據這些 Q 值選擇動作(通常結合探索策略,如 ε-greedy)。
執行並獲得獎勵:Agent 把動作送回環境,得到獎勵與新狀態。
更新 DQN:利用回饋來訓練神經網路,使 Q 值預測更準確。
這樣一來,AI Agent 就能透過 DQN 持續學習更好的策略。