Day2 - 什麼是增強式學習(Reinforcement Learning, RL) - Part2 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 2

0

AI & Data

當個自我強化學習的勇者系列第 2 篇

Day2 - 什麼是增強式學習(Reinforcement Learning, RL) - Part2

15th鐵人賽

2023-09-17 23:54:54

884 瀏覽

分享至

智慧(intelligence )是什麼?

" To be able to learn to make decisions to achieve goals " -- DeepMind

其核心包含以下元素：

學習 (Learning)
決策 (decisions)
目標 (goals)

增強式學習(Reinforcement Learning, RL)，要怎麼達到智慧呢？增強式學習的運作方式就如同人或動物一樣，在環境中互動來學習(Learn)，而強化學習與其他機器學習方式不同的地方，強化學習是採以主動(Action)的方式進行學習，且RL在環境中的學習是連續的(sequential)，決策會依賴於前一次的回饋進行交互運算、判斷。透過正向／負向獎勵機制，以優化決策。

圖片來源：
https://storage.googleapis.com/deepmind-media/UCL%20x%20DeepMind%202021/Lecture%201%20-%20introduction.pdf

『強化學習』是基於獎勵假設(reward hypothesis)：指的是任何目標都可以化成最大化累積獎勵的結果。
強化學習中獎勵項目分析：

汽車駕駛 -> 獎勵項目：行駛時間、距離反比....等
投資組合 -> 獎勵項目：收益、風險....等
圍棋 -> 獎勵項目：獲勝、得分最大化...等

因此，DeepMind(2021) 將增強式學習定義為，從交互學習中進行決策(learning to make decisions from interaction)的科學和框架。

Day1 - 什麼是增強式學習(Reinforcement Learning, RL)

Day3 - 增強式學習(Reinforcement Learning)中的Agent

系列文

當個自我強化學習的勇者共 5 篇

目錄

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙