RL 決策的運作邏輯(五個核心步驟):
感知與表示狀態(State Representation)
Agent 先把當下的環境狀態轉換成電腦能理解的數據表示(state)。
這一步決定了 Agent 對「世界」的認知深度,如果 state 表示不完整,後面決策的基礎就不穩。
策略選擇(Policy π)
策略是「在特定狀態下,選哪個行動的規則」。
剛開始策略可能是隨機的(exploration),讓 Agent 嘗試不同方法。
隨著學習,策略會逐漸偏向那些過去帶來好結果的行動(exploitation)。
執行行動(Action a)
Agent 根據策略做出實際行為。
環境會回應行動的結果,並給出:
立即獎勵(Reward r):衡量這次行動好壞的分數。
下一狀態(Next State s'):行動後的新環境資訊。
這個回饋就是 Agent 調整決策的依據。
策略與價值更新(Policy / Value Update)
Agent 會根據經驗更新內部模型,使得未來遇到類似情況時能更可能選擇高回報的行動。
價值導向(Value-based):像 Q-learning,用表格或神經網路估計每個 state-action 的長期價值 Q(s,a)。
策略導向(Policy-based):直接更新策略的參數,例如 Policy Gradient 方法。
混合方法(Actor-Critic):同時學習價值與策略,取得平衡。
雖然 RL 很強大,但它也有不少限制:
資料需求大,學習慢
RL 需要透過大量試錯來學習,如果環境複雜(例如自動駕駛),可能需要數百萬次模擬才有不錯的效果。
回饋設計困難
Reward 設計很敏感,如果設計不當,Agent 可能學到奇怪或不符合預期的行為(Reward Hacking)。
例如:在遊戲中,如果只計分數而不懲罰不動,Agent 可能選擇永遠停在安全點不前進。
不適合單次決策問題
如果任務只有一次決策(例如:輸入資料後直接輸出結果),用 RL 反而成本高,因為它的優勢是處理連續多步決策。
穩定性與可解釋性不足
RL 的學習過程有隨機性,有時結果不穩定,並且很難解釋「為什麼 Agent 做了這個決策」。
需要合適的探索策略
如果探索不夠,Agent 可能永遠卡在次佳策略(Local Optimum);如果探索過多,學習效率會很低。