AI的學習策略：深度Q網絡解析

2024 iThome 鐵人賽

DAY 12

AI/ ML & Data

AI Unlocked: 30 Days to AI Brilliance系列第 12 篇

16th鐵人賽 ai

leeangel

團隊資工之花

2024-09-26 17:28:40

294 瀏覽

分享至

隨著人工智慧技術的飛速發展，強化學習逐漸成為 AI 研究中的熱門領域，尤其是策略學習中的 Q-learning 和深度Q網絡（DQN）。它們能夠模擬人類學習過程，透過與環境互動逐步改善決策，並應用在各種場景中。本文將深入解析 Q-learning 與 DQN 的核心概念。

一、策略學習

不同策略學習方式：值函數 (Value Function)
值函數是用來評估某一狀態下的期望回報

狀態值函數 (State Value Function, V)：評估一個狀態的長期回報
行動值函數 (Action Value Function, Q)：評估在某一狀態下選擇特定行動的長期回報，Q-learning 的核心基於此函數。
策略梯度 (Policy Gradient)：
即之前提過的梯度下降法，這種方法直接對策略進行參數化，通過優化策略來最大化回報，較適合解決連續動作空間問題

策略的改進：Q-learning 演算法
透過不斷更新 Q-函數，讓機器學習到最佳的行動策略。具體步驟包括：

Q-值更新公式：

• 步驟 1：智能體從當前狀態s選擇一個動作a並獲得即時回報r，同時進入下一個狀態s'。
• 步驟 2：智能體通過最大化下一個狀態 s'下的回報來估計這次選擇的長期收益。
• 步驟 3：使用學習率alpha將新信息與舊的Q值混合，並更新Q值。這個更新代表著通過新的經驗來修正過去的估計，使得Q值逐漸收斂到最優值。

這個公式的核心在於，智能體透過不斷試探環境中的不同行動，來更新Q表格，使其逐漸學會如何在每個狀態下做出最優的決策。

二、深度Q網絡（DQN）

基本概念：Q-learning 的挑戰

用於離散狀態空間的強化學習方法，當狀態空間較小且明確時，Q-learning 能通過查表方式來記錄每個狀態（函數中的 Q 值）。
缺點：

當狀態空間連續且規模龐大時，記錄每個Q值就會變得困難，像是高維度狀態空間。
泛化能力不足：它無法在未曾見過的狀態上進行推理，需要大量的數據和時間遍歷所有可能的狀態。

DQN的原理

深度Q網絡是對 Q-learning 的改進，通過使用神經網絡來逼近 Q-函數，解決高維度連續狀態空間的問題。核心思想是使用神經網絡來預測每個狀態s下所有可能行動a的Q值，而不是使用查表結構。

核心：

神經網絡逼近 Q-函數：神經網絡接收狀態s作為輸入，輸出該狀態下所有可能行動的Q值。透過這種方式，DQN 不需要存儲每個狀態的 Q 值，而是用神經網絡學習從狀態映射到 Q 值的關係。
損失函數：DQN通過最小化誤差來更新神經網絡的參數，

改進技術：

經驗回放
每次從環境中獲得的經驗都會立即用來更新 Q 值，這樣可能導致數據之間高度相關，反而導致神經網絡學習不佳。而經驗回放技術可以將機器的經驗（狀態、行動、回報、下一狀態）存儲到一個回放記憶庫中，透過隨機抽取經驗來更新網絡參數、打破數據之間的相關性，才能進行更好的學習改進。
目標網絡
為了使學習過程更加穩定，使用了兩個神經網絡：主網絡 (Online Network)和目標網絡 (Target Network)。主網絡負責當前的決策，而目標網絡則用來計算目標 Q 值。
因為目標網絡的參數定期從主網絡的參數複製過來，而不是每次更新時都同步更新，這樣一來可以減少 Q 值更新過程中的波動，讓訓練更加穩定。

這些技術幫助 AI 在複雜的環境中學會做出最優決策。隨著強化學習的發展，這些技術將進一步推動 AI 的應用，甚至到自駕車、機器人等領域。