在強化學習(Reinforcement Learning, RL)中,AI Agent 要在環境中做出決策並學習最優行為,核心概念有兩個:值函數(Value Function) 與 政策(Policy)。這兩者是 AI Agent 學習過程的基石,一個負責「評估」,一個負責「行動」,兩者互相依存
政策(Policy):Agent 的行為指南
政策(Policy),通常記作 π(s),是 一個從狀態 (State) 到行動 (Action) 的對應規則。
它可以是「確定性政策」(deterministic policy):在狀態 s 下一定執行某個行動 a;
也可以是「隨機性政策」(stochastic policy):在狀態 s 下,依某個機率分布選擇行動。
白話理解
可以把政策想像成 AI Agent 的策略手冊。
當 Agent 遇到不同情況(state),它會翻手冊,決定要做什麼(action)。
如果政策很爛,就像一本「錯誤指南」,Agent 常常做出失敗的選擇;如果政策很強,就像一本「秘笈」,能幫助 Agent 一路走向成功。
例子
想像一個自駕車 Agent。政策就像它的「開車習慣」:
紅燈 → 停車
綠燈 → 前進
黃燈 → 減速(機率 80%)或直接前進(機率 20%)
這些「狀態 → 行為」的對應,就是政策。
值函數(Value Function):行為的長期價值
值函數是用來 評估一個狀態或狀態-行動組合的好壞。
常見兩種:
狀態值函數 V(s):在政策 π 下,從狀態 s 出發,未來能得到的期望回報。
行動值函數 Q(s, a):在政策 π 下,從狀態 s 出發,採取行動 a 後,未來能得到的期望回報。
白話理解
值函數就像 AI Agent 的水晶球,能幫它預測「如果現在這麼做,未來的總收益大概會有多少」。
它不是告訴你「下一步要怎麼做」,而是告訴你「這條路未來好不好」。
Agent 會用值函數來比較不同選擇,最後才依據政策去行動。
例子
在自駕車例子中:
如果車子在「綠燈,前方道路暢通」的狀態下,值函數 V(s) 可能很高(因為開下去能順利抵達目的地)。
但如果在「交通堵塞」的狀態,V(s) 就很低(因為會浪費很多時間)。
如果要比較「在紅燈時踩油門」與「在紅燈時煞車」的差別,就需要用 Q(s, a) 來衡量。
值函數與政策的互動
這兩者並不是分開存在,而是 互相影響、互相演化:
給定政策 → 評估值函數
如果 AI 已有一份政策(比如開車規則),那麼我們就能算出值函數,知道這份政策的「長期表現」。
改善政策 → 使用值函數
反過來,若 Agent 擁有值函數的評估,它就能調整政策,選擇更好的行動。
這種「政策改進」是強化學習的核心循環。
把政策想像成「一本遊戲攻略書」,值函數則像「這本攻略書的評分系統」。
如果值函數顯示「這條攻略的結果分數很低」,Agent 就會嘗試改進攻略(政策)。
最後,透過不斷互動,Agent 會找到「最佳政策」,也就是所謂的 Optimal Policy