iT邦幫忙

2023 iThome 鐵人賽

DAY 2
0
AI & Data

當個自我強化學習的勇者系列 第 2

Day2 - 什麼是增強式學習(Reinforcement Learning, RL) - Part2

  • 分享至 

  • xImage
  •  

智慧(intelligence )是什麼?

" To be able to learn to make decisions to achieve goals " -- DeepMind

其核心包含以下元素:

  1. 學習 (Learning)
  2. 決策 (decisions)
  3. 目標 (goals)

增強式學習(Reinforcement Learning, RL),要怎麼達到智慧呢?增強式學習的運作方式就如同人或動物一樣,在環境中互動來學習(Learn),而強化學習與其他機器學習方式不同的地方,強化學習是採以主動(Action)的方式進行學習,且RL在環境中的學習是連續的(sequential),決策會依賴於前一次的回饋進行交互運算、判斷。透過正向/負向獎勵機制,以優化決策。

https://ithelp.ithome.com.tw/upload/images/20230920/20107244Vwf9Jgb9ca.png

圖片來源:
https://storage.googleapis.com/deepmind-media/UCL%20x%20DeepMind%202021/Lecture%201%20-%20introduction.pdf

『強化學習』是基於獎勵假設(reward hypothesis):指的是任何目標都可以化成最大化累積獎勵的結果。
強化學習中獎勵項目分析:

  • 汽車駕駛 -> 獎勵項目:行駛時間、距離反比....等
  • 投資組合 -> 獎勵項目:收益、風險....等
  • 圍棋 -> 獎勵項目:獲勝、得分最大化...等

因此,DeepMind(2021) 將增強式學習定義為,從交互學習中進行決策(learning to make decisions from interaction)的科學和框架。


上一篇
Day1 - 什麼是增強式學習(Reinforcement Learning, RL)
下一篇
Day3 - 增強式學習(Reinforcement Learning)中的Agent
系列文
當個自我強化學習的勇者5
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言