DAY 29 安全&機器的結合(強化學習)

2018 iT 邦幫忙鐵人賽

DAY 29

Security

資安的學習心得及分享系列第 29 篇

2018鐵人賽

Fu-sheng

2018-01-01 09:18:25

2397 瀏覽

分享至

強化學習
今天來講機器學習中第四種學習，強化學習，強化學習我個人覺得是最厲害的，為什麼這麼講了，少了監督式學習所謂的標籤『Lable』，但是比起非監督式學習有多了所謂的標籤『Lable』，這樣你們覺得好還是不好呢 ? 我繼續講下去。
回想一下，監督式學習就是我們只要告訴機器所謂的標籤『Lable』再叫他做事(規則)就是可以。所以當你面對一個問題時你只要告訴機器正確答案是什麼。
機器就會開始照我們給他的想法執行，圖片我們告訴機器白色的為顯性，機器就會判為顯性。

但是強化學習的意思，就是我們給機器在一個環境下自我訓練，藉由他自己找尋答案，但是跟非監督式學習不同，因為強化學習我們會在機器自我訓練完的同時告訴他答案是否正確。

強化學習（reinforcement learning）：透過觀察環境而行動，並會隨時根據新進來的資料逐步修正、以獲得最大利益。
若環境的變化是離目標更接近、我們就會給予一個正向反饋（Positive Reward），比如當機器投籃時越來越接近籃框；若離目標更遠、則給予負向反饋（Negative Reward），比如賽車時機器越開越偏離跑道

例如圖片解釋，訓練前機器一樣會分辨顯性和隱性，但訓練完成後，會有所謂的激勵因子，分數越高，就是結果正確，或者相反，機器則會藉由錯誤來修正，並藉由激勵因子來尋找答案。