iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0
AI & Data

進入AI的世界系列 第 13

➤D-13 主要學習理論-5【完】(強化學習)

  • 分享至 

  • xImage
  •  

強化學習的基本概念
由於人類許多任務不只是分類、分群與預測,而存在許多需要依據環境不斷動態變化,採取一系列連續性的決策。
除了利用特徵值的機器學習方法外,植基於「回饋」(Feed-back)來不斷地、連續性地調整機器行為,以達成目標的強化(增強)式學習,當然就成為一種非常重要的主流機器學習模型。
透過每次行動(Action)所得到不同的報酬值(Reward)來決定在目前狀態下(State)應該如何選擇行動策略(Policy)的一種機器學習方法。

  • 每個位置愈靠近目標價值愈大,距離愈遠價值遞減愈小。
  • Agent在任何一個位置都會找尋價值最大的鄰居移動。
  • 美個位置的價值是強化學習在走過所有不同路徑後,根據其距離目標的遠近距離所記錄下來的藏寶圖,即為馬可夫決策過程(Markov Decision Pro-cess, MDP)的狀態價值表(State-Value Table)☞當代理者做出不同決策或動作時,環境會給予不同的獎勵或處罰,而代理者會往價值最高的地方不斷地邁進,也就是所謂的「Q-Table」。
    總而言之,強化學習的精神在於「趨吉避凶」、「人往高處爬,不往低處走」,透過不斷的探索,預先估計每個行動的正負價值後,快速的、正確的、穩定的往目標邁進。

強化學習的主要應用

  1. 自駕車。
  2. 系統節能。
  3. 金融股票投資運用。
  4. 醫療健保上運用。
  5. 產品推薦上運用:
    • 新聞推薦。
    • 朋友推薦。
    • 動態行銷廣告。
    • 搜尋引擎推薦。
  6. 機器手臂操作。

強化學習的主要問題與演算法

  1. 強化學習的主要問題
    ①狀態價值的估計。
    ②行動價值的估計。
    ③行動最佳化的問題。
  2. 強化學習的主要演算法
    ①Q-Learning:屬暴力破解法(Brute Force Method)、不需建模、假設有無限的探索時間。
    ②Deep Q-Network(DQN):結合深度學習(DL)加上強化學習(RL),例如:AlphaGo。

強化學習的優缺點

  1. 強化學習優點
    ①自我學習性。
    ②簡單性。
    ③通用性。
    ④自我調整性。
    ⑤創意性。
  2. 強化學習的缺點
    ①報酬函數設定問題:不擇手段的風險。
    ②情境模擬涵蓋的完整性問題。
    ③無法模擬訓練的問題:尤其是許多具備「物理感知特性」的問題。
    ④訓練效率的問題。

強化學習主要特色

強化應用☞

  • 學習哲學:
    • 給目標不擇手段。
    • 由環境的回饋不斷修正、試誤。
    • 趨吉避凶、找獎勵、避處罰。
  • 主要應用:
    • 任何動態環境、一序列決策的任務。
    • 自駕車、下棋、打遊戲、各種推薦系統等。
  • 主要模型:
    • Q-Learning。
    • Deep Q-Network(DQN)。
  • 優點:
    • 自發性學習調整優化、簡單、適用。
    • 創意性。
  • 缺點:
    • 目標設定的問題。
    • 環境的涵蓋問題。
    • 無法模擬的問題。
    • 訓練效率的問題。

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-12 主要學習理論-4(監督式學習、非監督式學習、半監督式學習)
下一篇
➤D-14 主要演算法-1(主要分類架構)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言