iT邦幫忙

2021 iThome 鐵人賽

DAY 12
0
AI & Data

我比機器更需要學習系列 第 12

Day 12 強化學習 (Reinforcement Learning)

強化學習什麼是?

簡稱RL,在沒有以往資料的前提下,將模型放到使用環境中,透過一些操作觀察環境狀態,並且接受環境的正回饋與負回饋,動態調整模型。

淺談強化學習

把機器比擬做小孩,需要自行去學習找出規律(EX:Alpha GO)。機器要用什麼方法學習?就像人類一樣,要幫機器找個老師,只是這個老師比較嚴格,只會幫機器打分數,而機器只要記住如何得到高分的方式,以及如何避免得到低分,就能得到最優的結果。
強化學習算法:

  • Q-learning
  • Sarsa
  • Deep Q Network
  • Policy Gradients
  • Model based RL

今天先學Q-learning,假設明天要考試,我有 A.打LOL 跟 B.讀書 兩條路,在不知道後果的前提下,我當然選擇A,等到我爸媽回來後,發現我沒讀書,所以海扁我,因此產生了陰影,所以我把A當成是負面行為,把B當成是正面行為,在做決定前會先想像後果,判斷該選A還是B,將選擇的次數變多跟不斷更新回饋,找出最好的結果,大概就是Q-learning的概念,舉例不好請見諒。


上一篇
Day11 K平均演算法(K-means clustering algorithm)
下一篇
Day13 線性回歸實作
系列文
我比機器更需要學習23

尚未有邦友留言

立即登入留言