iT邦幫忙

2024 iThome 鐵人賽

DAY 12
0
AI/ ML & Data

AI Unlocked: 30 Days to AI Brilliance系列 第 12

AI的學習策略:深度Q網絡解析

  • 分享至 

  • xImage
  •  

隨著人工智慧技術的飛速發展,強化學習逐漸成為 AI 研究中的熱門領域,尤其是策略學習中的 Q-learning 和深度Q網絡(DQN)。它們能夠模擬人類學習過程,透過與環境互動逐步改善決策,並應用在各種場景中。本文將深入解析 Q-learning 與 DQN 的核心概念。

一、策略學習

  1. 不同策略學習方式:值函數 (Value Function)
    值函數是用來評估某一狀態下的期望回報
  • 狀態值函數 (State Value Function, V):評估一個狀態的長期回報
  • 行動值函數 (Action Value Function, Q):評估在某一狀態下選擇特定行動的長期回報,Q-learning 的核心基於此函數。
  • 策略梯度 (Policy Gradient):
    即之前提過的梯度下降法,這種方法直接對策略進行參數化,通過優化策略來最大化回報,較適合解決連續動作空間問題
  1. 策略的改進:Q-learning 演算法
    透過不斷更新 Q-函數,讓機器學習到最佳的行動策略。具體步驟包括:
  • Q-值更新公式:

• 步驟 1:智能體從當前狀態s選擇一個動作a並獲得即時回報r,同時進入下一個狀態s'。
• 步驟 2:智能體通過最大化下一個狀態 s'下的回報來估計這次選擇的長期收益。
• 步驟 3:使用學習率alpha將新信息與舊的Q值混合,並更新Q值。這個更新代表著通過新的經驗來修正過去的估計,使得Q值逐漸收斂到最優值。

這個公式的核心在於,智能體透過不斷試探環境中的不同行動,來更新Q表格,使其逐漸學會如何在每個狀態下做出最優的決策。

二、深度Q網絡(DQN)

  1. 基本概念:Q-learning 的挑戰

用於離散狀態空間的強化學習方法,當狀態空間較小且明確時,Q-learning 能通過查表方式來記錄每個狀態(函數中的 Q 值)。
缺點:

  • 當狀態空間連續且規模龐大時,記錄每個Q值就會變得困難,像是高維度狀態空間。
  • 泛化能力不足:它無法在未曾見過的狀態上進行推理,需要大量的數據和時間遍歷所有可能的狀態。
  1. DQN的原理

深度Q網絡是對 Q-learning 的改進,通過使用神經網絡來逼近 Q-函數,解決高維度連續狀態空間的問題。核心思想是使用神經網絡來預測每個狀態s下所有可能行動a的Q值,而不是使用查表結構。

核心:

  • 神經網絡逼近 Q-函數:神經網絡接收狀態s作為輸入,輸出該狀態下所有可能行動的Q值。透過這種方式,DQN 不需要存儲每個狀態的 Q 值,而是用神經網絡學習從狀態映射到 Q 值的關係。
  • 損失函數:DQN通過最小化誤差來更新神經網絡的參數,

改進技術:

  • 經驗回放
    每次從環境中獲得的經驗都會立即用來更新 Q 值,這樣可能導致數據之間高度相關,反而導致神經網絡學習不佳。而經驗回放技術可以將機器的經驗(狀態、行動、回報、下一狀態)存儲到一個回放記憶庫中,透過隨機抽取經驗來更新網絡參數、打破數據之間的相關性,才能進行更好的學習改進。

  • 目標網絡
    為了使學習過程更加穩定,使用了兩個神經網絡:主網絡 (Online Network)和目標網絡 (Target Network)。主網絡負責當前的決策,而目標網絡則用來計算目標 Q 值。
    因為目標網絡的參數定期從主網絡的參數複製過來,而不是每次更新時都同步更新,這樣一來可以減少 Q 值更新過程中的波動,讓訓練更加穩定。

這些技術幫助 AI 在複雜的環境中學會做出最優決策。隨著強化學習的發展,這些技術將進一步推動 AI 的應用,甚至到自駕車、機器人等領域。


上一篇
AI接管醫療影像:CNN如何助力精準診斷
下一篇
強化學習實戰:從理論到實作,帶你掌握 Q-learning
系列文
AI Unlocked: 30 Days to AI Brilliance30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言