簡稱RL,在沒有以往資料的前提下,將模型放到使用環境中,透過一些操作觀察環境狀態,並且接受環境的正回饋與負回饋,動態調整模型。
把機器比擬做小孩,需要自行去學習找出規律(EX:Alpha GO)。機器要用什麼方法學習?就像人類一樣,要幫機器找個老師,只是這個老師比較嚴格,只會幫機器打分數,而機器只要記住如何得到高分的方式,以及如何避免得到低分,就能得到最優的結果。
強化學習算法:
今天先學Q-learning,假設明天要考試,我有 A.打LOL 跟 B.讀書 兩條路,在不知道後果的前提下,我當然選擇A,等到我爸媽回來後,發現我沒讀書,所以海扁我,因此產生了陰影,所以我把A當成是負面行為,把B當成是正面行為,在做決定前會先想像後果,判斷該選A還是B,將選擇的次數變多跟不斷更新回饋,找出最好的結果,大概就是Q-learning的概念,舉例不好請見諒。