Day 12 強化學習 (Reinforcement Learning)

2021 iThome 鐵人賽

DAY 12

AI & Data

我比機器更需要學習系列第 12 篇

13th鐵人賽

Tun

2021-09-18 02:26:45

1269 瀏覽

分享至

強化學習什麼是?

簡稱RL，在沒有以往資料的前提下，將模型放到使用環境中，透過一些操作觀察環境狀態，並且接受環境的正回饋與負回饋，動態調整模型。

淺談強化學習

把機器比擬做小孩，需要自行去學習找出規律(EX:Alpha GO)。機器要用什麼方法學習?就像人類一樣，要幫機器找個老師，只是這個老師比較嚴格，只會幫機器打分數，而機器只要記住如何得到高分的方式，以及如何避免得到低分，就能得到最優的結果。
強化學習算法:

Q-learning
Sarsa
Deep Q Network
Policy Gradients
Model based RL

今天先學Q-learning，假設明天要考試，我有 A.打LOL 跟 B.讀書兩條路，在不知道後果的前提下，我當然選擇A，等到我爸媽回來後，發現我沒讀書，所以海扁我，因此產生了陰影，所以我把A當成是負面行為，把B當成是正面行為，在做決定前會先想像後果，判斷該選A還是B，將選擇的次數變多跟不斷更新回饋，找出最好的結果，大概就是Q-learning的概念，舉例不好請見諒。