強化學習
今天來講機器學習中第四種學習,強化學習,強化學習我個人覺得是最厲害的,為什麼這麼講了,少了監督式學習所謂的標籤『Lable』,但是比起非監督式學習有多了所謂的標籤『Lable』,這樣你們覺得好還是不好呢 ? 我繼續講下去。
回想一下,監督式學習就是我們只要告訴機器所謂的標籤『Lable』再叫他做事(規則)就是可以。所以當你面對一個問題時你只要告訴機器正確答案是什麼。
機器就會開始照我們給他的想法執行,圖片我們告訴機器白色的為顯性,機器就會判為顯性。
但是強化學習的意思,就是我們給機器在一個環境下自我訓練,藉由他自己找尋答案,但是跟非監督式學習不同,因為強化學習我們會在機器自我訓練完的同時告訴他答案是否正確。
強化學習(reinforcement learning):透過觀察環境而行動,並會隨時根據新進來的資料逐步修正、以獲得最大利益。
若環境的變化是離目標更接近、我們就會給予一個正向反饋(Positive Reward),比如當機器投籃時越來越接近籃框;若離目標更遠、則給予負向反饋(Negative Reward),比如賽車時機器越開越偏離跑道
例如圖片解釋,訓練前機器一樣會分辨顯性和隱性,但訓練完成後,會有所謂的激勵因子,分數越高,就是結果正確,或者相反,機器則會藉由錯誤來修正,並藉由激勵因子來尋找答案。
最後祝大家元旦快樂 ! 謝謝 ~