隨著人工智慧技術的飛速發展,強化學習逐漸成為 AI 研究中的熱門領域,尤其是策略學習中的 Q-learning 和深度Q網絡(DQN)。它們能夠模擬人類學習過程,透過與環境互動逐步改善決策,並應用在各種場景中。本文將深入解析 Q-learning 與 DQN 的核心概念。
一、策略學習
• 步驟 1:智能體從當前狀態s選擇一個動作a並獲得即時回報r,同時進入下一個狀態s'。
• 步驟 2:智能體通過最大化下一個狀態 s'下的回報來估計這次選擇的長期收益。
• 步驟 3:使用學習率alpha將新信息與舊的Q值混合,並更新Q值。這個更新代表著通過新的經驗來修正過去的估計,使得Q值逐漸收斂到最優值。
這個公式的核心在於,智能體透過不斷試探環境中的不同行動,來更新Q表格,使其逐漸學會如何在每個狀態下做出最優的決策。
二、深度Q網絡(DQN)
用於離散狀態空間的強化學習方法,當狀態空間較小且明確時,Q-learning 能通過查表方式來記錄每個狀態(函數中的 Q 值)。
缺點:
深度Q網絡是對 Q-learning 的改進,通過使用神經網絡來逼近 Q-函數,解決高維度連續狀態空間的問題。核心思想是使用神經網絡來預測每個狀態s下所有可能行動a的Q值,而不是使用查表結構。
核心:
改進技術:
經驗回放
每次從環境中獲得的經驗都會立即用來更新 Q 值,這樣可能導致數據之間高度相關,反而導致神經網絡學習不佳。而經驗回放技術可以將機器的經驗(狀態、行動、回報、下一狀態)存儲到一個回放記憶庫中,透過隨機抽取經驗來更新網絡參數、打破數據之間的相關性,才能進行更好的學習改進。
目標網絡
為了使學習過程更加穩定,使用了兩個神經網絡:主網絡 (Online Network)和目標網絡 (Target Network)。主網絡負責當前的決策,而目標網絡則用來計算目標 Q 值。
因為目標網絡的參數定期從主網絡的參數複製過來,而不是每次更新時都同步更新,這樣一來可以減少 Q 值更新過程中的波動,讓訓練更加穩定。
這些技術幫助 AI 在複雜的環境中學會做出最優決策。隨著強化學習的發展,這些技術將進一步推動 AI 的應用,甚至到自駕車、機器人等領域。