智慧(intelligence )是什麼?
" To be able to learn to make decisions to achieve goals " -- DeepMind
其核心包含以下元素:
增強式學習(Reinforcement Learning, RL),要怎麼達到智慧呢?增強式學習的運作方式就如同人或動物一樣,在環境中互動來學習(Learn),而強化學習與其他機器學習方式不同的地方,強化學習是採以主動(Action)的方式進行學習,且RL在環境中的學習是連續的(sequential),決策會依賴於前一次的回饋進行交互運算、判斷。透過正向/負向獎勵機制,以優化決策。
『強化學習』是基於獎勵假設(reward hypothesis):指的是任何目標都可以化成最大化累積獎勵的結果。
強化學習中獎勵項目分析:
因此,DeepMind(2021) 將增強式學習定義為,從交互學習中進行決策(learning to make decisions from interaction)的科學和框架。