RL 怎麼幫助 Agent 做決策？有哪些限制？

2025 iThome 鐵人賽

DAY 8

自我挑戰組

AI Agentu相關研究系列第 8 篇

17th鐵人賽

S1111132020

2025-08-14 21:41:13

164 瀏覽

分享至

RL 決策的運作邏輯（五個核心步驟）:

感知與表示狀態（State Representation）
Agent 先把當下的環境狀態轉換成電腦能理解的數據表示（state）。
這一步決定了 Agent 對「世界」的認知深度，如果 state 表示不完整，後面決策的基礎就不穩。

策略選擇（Policy π）
策略是「在特定狀態下，選哪個行動的規則」。
剛開始策略可能是隨機的（exploration），讓 Agent 嘗試不同方法。
隨著學習，策略會逐漸偏向那些過去帶來好結果的行動（exploitation）。

執行行動（Action a）
Agent 根據策略做出實際行為。
環境會回應行動的結果，並給出：
立即獎勵（Reward r）：衡量這次行動好壞的分數。
下一狀態（Next State s'）：行動後的新環境資訊。
這個回饋就是 Agent 調整決策的依據。

策略與價值更新（Policy / Value Update）
Agent 會根據經驗更新內部模型，使得未來遇到類似情況時能更可能選擇高回報的行動。
價值導向（Value-based）：像 Q-learning，用表格或神經網路估計每個 state-action 的長期價值 Q(s,a)。
策略導向（Policy-based）：直接更新策略的參數，例如 Policy Gradient 方法。
混合方法（Actor-Critic）：同時學習價值與策略，取得平衡。

雖然 RL 很強大，但它也有不少限制：

資料需求大，學習慢
RL 需要透過大量試錯來學習，如果環境複雜（例如自動駕駛），可能需要數百萬次模擬才有不錯的效果。
回饋設計困難
Reward 設計很敏感，如果設計不當，Agent 可能學到奇怪或不符合預期的行為（Reward Hacking）。
例如：在遊戲中，如果只計分數而不懲罰不動，Agent 可能選擇永遠停在安全點不前進。
不適合單次決策問題
如果任務只有一次決策（例如：輸入資料後直接輸出結果），用 RL 反而成本高，因為它的優勢是處理連續多步決策。
穩定性與可解釋性不足
RL 的學習過程有隨機性，有時結果不穩定，並且很難解釋「為什麼 Agent 做了這個決策」。
需要合適的探索策略
如果探索不夠，Agent 可能永遠卡在次佳策略（Local Optimum）；如果探索過多，學習效率會很低。