iT邦幫忙

2023 iThome 鐵人賽

DAY 20
0

強化學習

依賴與動態( dynamic )環境的資料(隨著外部條件變化而改變的資料)重複互動
以最大化累積回報( cumulative reward )找出能夠產生最佳結果的策略
是一種嘗試錯誤( trial-and-error )的學習方法

  • 代理(Agent):
    處於環境中,並根據觀測、選擇的動作和獲得的回報來進行學習和決策。
  • 環境(Environment):
    是代理所處的外部世界,是代理互動和學習的場所,環境可以是現實世界中的事物,也可以是虛擬的
  • 狀態(State):
    是描述環境的資料,可以是完整的、部分可觀測的或隱藏的
  • 動作(Action):
    是代理可以執行的操作,影響代理與環境的互動,來最大化長期回報
  • 回報(Reward):
    是環境提供給代理的即時反饋信號,用來評估代理的動作,通過最大化預期回報來改進策略
    https://ithelp.ithome.com.tw/upload/images/20231005/201633174lHv7esMqc.png

工作流程

建立環境

先定義一個環境,是代理進行學習和互動的地方
而環境可以是現實世界的物理系統,也可以是模擬器或虛擬環境
要確定代理和環境之間的互動方式,包括如何觀察環境的狀態、執行動作以及接收回報

定義獎賞

獎賞是代理用來評估其行動的回饋信號,通常表示為一個數值
要定義獎賞的方式,讓代理可以根據獎賞信號來學習
而獎賞的設計通常需要多次迭代和調整

建立主體

主體是代理的核心,包括策略和訓練演算法
先選擇一種策略的方法,可以使用類神經網路、查找表或其他方法
然後設計策略的結構和邏輯,讓代理可以根據環境的狀態做出動作

訓練及驗證主體

設定訓練的參數,像是訓練的持續時間或者停止標準
代理會根據選擇的訓練演算法來調整策略,最大化預期的長期回報
驗證訓練好的策略通常涉及模擬測試,讓策略在不同情況下表現良好

策略的佈署

當代理的策略訓練好並驗證,可以實際應用策略部署
需要將策略轉換為程式碼或硬體形式
不用擔心主體和訓練演算法的實現,策略已經是獨立的決策系統

在訓練主體時
可能會遇到不同的問題
需要根據實際情況進行調整和改進
這時就要

進行疊代

訓練的設定

如果訓練過程不能在合理的時間(或者次數)內達到收斂
就要調整訓練的持續時間、學習率、探索策略等超參數
嘗試不同的設置,來找到對於特定問題最有效的設置

學習演算法的配置

不同的問題可能需要不同的演算法
如果選擇的演算法所產生的結果不好,就要嘗試其他強化學習算法

策略的表現方式

如果代理的策略不能捕捉到問題的重要特徵或結構,就要改變策略的表示方式
像是神經網絡的架構、添加或刪除層次、調整輸入特徵等

獎賞訊號的定義

獎賞的設計可能需要多次調整
要多次重新評估獎賞訊號的種類、大小、密度等

動作與觀察訊號

如果代理的動作選擇或觀察訊號舞法提供足夠的資訊
需要擴展動作空間、增加感知能力或改變觀察方式

環境動態

如果環境的動態性質發生變化,代理的策略可能需要調整來適應

強化學習是一個實驗性的過程
需要不斷的嘗試和調整
來找到最佳的策略
而疊代是正常的一部分
在解決複雜問題時往往是不可避免的

挑戰和限制

  • 樣本效率 強化學習通常需要大量的訓練樣本
  • 問題設定複雜性 強化學習需要精心定義獎賞、狀態表示和動作選擇等,如果問題太複雜或不明確,需要大量時間和疊代
  • 黑盒子策略 強化學習中的神經網絡策略通常難以理解和解釋
  • 時間和安全性 強化學習對時間或安全性要求非常高

演算法

蒙特卡洛學習 ( Monte-Carlo Learning )

通過模擬環境互動,來學習最優策略的方法
使用蒐集到的完整軌跡來計算每個狀態-動作對的值

Temporal-Difference Learning ( TD 學習)

結合了蒙特卡洛和動態規劃,通過實時更新估計值來學習
使用估計值代替等待整個軌跡的實際回報,因此更適用於實時應用

SARSA

基於 TD 學習,根據當下策略的某一動作後所獲得的回報以及進入下一狀態後的動作

Q 學習

基於 TD 學習,通常用於學習狀態-動作值函數( Q 函數)
函數估計在每個狀態下執行每個動作的值

參考資料及圖源

https://www.terasoft.com.tw/support/tech_articles/reinforcement_learning_a_brief_guide.asp
https://zh.wikipedia.org/zh-tw/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0


上一篇
重啟旅程~半監督式學習
下一篇
強化學習~馬可夫決策過程( MDP )
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言