AI Agent 的值函數與政策

2025 iThome 鐵人賽

DAY 16

自我挑戰組

AI Agentu相關研究系列第 16 篇

17th鐵人賽

S1111132020

2025-08-22 10:36:30

193 瀏覽

分享至

在強化學習（Reinforcement Learning, RL）中，AI Agent 要在環境中做出決策並學習最優行為，核心概念有兩個：值函數（Value Function）與政策（Policy）。這兩者是 AI Agent 學習過程的基石，一個負責「評估」，一個負責「行動」，兩者互相依存

政策（Policy）：Agent 的行為指南
政策（Policy），通常記作 π(s)，是一個從狀態 (State) 到行動 (Action) 的對應規則。
它可以是「確定性政策」（deterministic policy）：在狀態 s 下一定執行某個行動 a；
也可以是「隨機性政策」（stochastic policy）：在狀態 s 下，依某個機率分布選擇行動。
白話理解
可以把政策想像成 AI Agent 的策略手冊。
當 Agent 遇到不同情況（state），它會翻手冊，決定要做什麼（action）。
如果政策很爛，就像一本「錯誤指南」，Agent 常常做出失敗的選擇；如果政策很強，就像一本「秘笈」，能幫助 Agent 一路走向成功。
例子
想像一個自駕車 Agent。政策就像它的「開車習慣」：
紅燈 → 停車
綠燈 → 前進
黃燈 → 減速（機率 80%）或直接前進（機率 20%）
這些「狀態 → 行為」的對應，就是政策。

值函數（Value Function）：行為的長期價值
值函數是用來評估一個狀態或狀態-行動組合的好壞。
常見兩種：
狀態值函數 V(s)：在政策 π 下，從狀態 s 出發，未來能得到的期望回報。
行動值函數 Q(s, a)：在政策 π 下，從狀態 s 出發，採取行動 a 後，未來能得到的期望回報。
白話理解
值函數就像 AI Agent 的水晶球，能幫它預測「如果現在這麼做，未來的總收益大概會有多少」。
它不是告訴你「下一步要怎麼做」，而是告訴你「這條路未來好不好」。
Agent 會用值函數來比較不同選擇，最後才依據政策去行動。
例子
在自駕車例子中：
如果車子在「綠燈，前方道路暢通」的狀態下，值函數 V(s) 可能很高（因為開下去能順利抵達目的地）。
但如果在「交通堵塞」的狀態，V(s) 就很低（因為會浪費很多時間）。
如果要比較「在紅燈時踩油門」與「在紅燈時煞車」的差別，就需要用 Q(s, a) 來衡量。

值函數與政策的互動
這兩者並不是分開存在，而是互相影響、互相演化：
給定政策 → 評估值函數
如果 AI 已有一份政策（比如開車規則），那麼我們就能算出值函數，知道這份政策的「長期表現」。
改善政策 → 使用值函數
反過來，若 Agent 擁有值函數的評估，它就能調整政策，選擇更好的行動。
這種「政策改進」是強化學習的核心循環。
把政策想像成「一本遊戲攻略書」，值函數則像「這本攻略書的評分系統」。
如果值函數顯示「這條攻略的結果分數很低」，Agent 就會嘗試改進攻略（政策）。
最後，透過不斷互動，Agent 會找到「最佳政策」，也就是所謂的 Optimal Policy