前幾天提到的學習方式都是將資料輸入模型,然後讓模型預測結果,而今天要來記錄的學習方式則有些不同,它需要讓模型不斷執行一連串的動作,來達到特定的最終目標
進入本日主題!
訓練一個模型時,透過讓模型跟一個動態的環境互動,不斷嘗試各式各樣的行為,來學習正確地執行一項任務,
這種叫做嘗試錯誤(trial-and-error)的學習方法,會藉由嘗試錯誤的行為來適應環境,不需要預先標記任何資料,但會讓模型在學習的過程中不斷做出動作,然後根據環境反饋的好壞,來讓模型採取的行動獲得獎勵或懲罰,
通過這種方式,模型就可以自主地進行修正,使其能夠在無需人為干預或明確的程式指導下,就能夠做出一系列的決策,以最大化獲得獎勵(reward)。
強化學習的運作方式主要是依賴於動態環境中的資訊,這些資訊會隨著外部條件的改變而變化,而它的目標就是希望能找到一個最佳策略(Policy),可以最大化整個學習過程(episode)的獎勵
通常情況下,強化學習適用於無法獲得明確標籤或標準答案的情境,但能夠判斷行動結果的時候
想想看下面這個問題:
Q:如果今天在回家的路上發現前面道路被封起來了,你會怎麼辦?
回答:嘗試看看另一條稍遠的小路繞行
這就是強化式學習的概念,你會基於以前遇到過的經驗,嘗試不同的方法來解決問題。在這個過程中,不斷學習,以找到最有效的方式