[DAY24] 機器學習 - 強化學習

15th鐵人賽強化學習機器學習馬爾濟斯初學者

泉韵

團隊每件事都壓死線的大家真的可以完賽嗎？

2023-10-09 01:14:05

822 瀏覽

分享至

強化學習概論

讓智慧型代理人/智慧體/智能體（intelligent agent）通過與環境的交互學習如何做出決策，以最大化一個獎勵信號。它通常涉及到Agent採取一系列行動，觀察環境的狀態，然後根據獎勵信號來調整策略。

強化學習的基本概念

智慧型代理人（Agent）：學習做出決策的主體，可以是機器人、遊戲玩家等。
環境（Environment）：智慧型代理人操作的場景，包括一系列可能的狀態和行動。
策略（Policy）：智慧型代理人的行動策略，描述了在不同狀態下如何選擇行動。
獎勵（Reward）：環境為智慧型代理人的行動提供的反饋信號，用於評估行動的好壞。
價值函數（Value Function）：用於估計在某個狀態或狀態-行動對下的長期總獎勵。
行動（Action）：智慧型代理人在狀態下可以執行的操作或決策。

值估算問題

狀態值估算（State-Value Estimation）：預測在特定狀態下的預期回報，稱為狀態值函數（V）。
動作值估算（Action-Value Estimation）：預測在特定狀態和行動組合下的預期回報，稱為動作值函數（Q）。

強化學習演算法 Q-learning

基於值迭代的強化學習算法，用於學習最佳策略。
通過更新狀態-行動對應Q值，以選擇最佳行動。

Q(state, action) = (1 - learning_rate) * Q(state, action) + learning_rate * (reward + discount_factor * max(Q(next_state, all_actions)))

強化學習應用

自動駕駛
遊戲
金融交易
自動控制

常見問題

探索與利用之間的權衡：智慧型代理人需要在探索未知行動和利用已知訊息之間取得平衡。
獎勵稀疏性：某些環境中，正確的行動可能長時間不會受到任何獎勵。
擴展性：處理大型狀態空間和行動空間的問題需要高效的算法和近似方法。
訓練穩定性：某些算法在訓練過程中可能不穩定，需要謹慎調整參數。

近端策略優化(Proximal Policy Optimization，PPO)

OpenAI公司於2017年開發的一系列無模型強化學習算法
策略梯度算法
通過在每一步中更新策略，來不斷提高策略的性能

置信域/信賴域方法（Trust-region methods）

訓練強化學習代理時限制策略更新的大小，以確保穩定的訓練過程。
在每一步中計算一個置信域，並確保策略更新在這個置信域內

時序差分學習(Temporal difference learning，TD learning)

一類無模型強化學習方法的統稱
通過不斷地估計狀態值函數或動作值函數來學習最優策略
蒙特卡羅方法、統計類比方法

蒙特卡羅/統計類比方法

通過採樣軌跡來計算期望獎勵，從而更新值函數和策略。

範例

import numpy as np

# 定義簡化的迷宮地圖
# 0 表示空格，1 表示障礙物，2 表示目標
maze = np.array([
    [0, 0, 0],
    [1, 1, 0],
    [0, 0, 2]
])

# 定義Q-table，初始化為0
num_states = maze.size
num_actions = 4  # 上、下、左、右四個動作
q_table = np.zeros((num_states, num_actions))

# 定義參數
# 學習速率
learning_rate = 0.5
# 用於衡量未來獎勵的重要性，通常介於0和1之間
discount_factor = 0.9
# 　在ε-greedy策略中用於控制隨機探索的機率
exploration_prob = 0.2
# 指定訓練Q-learning的總次數
num_episodes = 1


# 定義狀態轉換函數
def get_next_state(state, action):
    row, col = np.where(maze == state)
    row, col = row[0], col[0]
    if action == 0:  # 上
        new_row, new_col = max(row - 1, 0), col
    elif action == 1:  # 下
        new_row, new_col = min(row + 1, maze.shape[0] - 1), col
    elif action == 2:  # 左
        new_row, new_col = row, max(col - 1, 0)
    else:  # 右
        new_row, new_col = row, min(col + 1, maze.shape[1] - 1)
    return maze[new_row, new_col]


# 簡化的Q-learning主循環
for episode in range(num_episodes):
    state = maze[0, 0]  # 初始狀態
    done = False
    while not done:
        # ε-greedy策略
        if np.random.rand() < exploration_prob:
            action = np.random.randint(num_actions)  # 隨機選擇動作
        else:
            action = np.argmax(q_table[state])  # 選擇具有最高Q值的動作
        next_state = get_next_state(state, action)
        reward = -1 if next_state != 2 else 10  # 目標狀態獎勵為10，其他狀態獎勵為-1
        # Q值更新
        q_table[state, action] = q_table[state, action] + learning_rate * (
            reward + discount_factor *
            np.max(q_table[next_state]) - q_table[state, action]
        )
        state = next_state
        if state == 2:  # 到達目標狀態
            done = True

# 測試學習後的策略
state = maze[0, 0]  # 重新回到起始狀態
path = [state]
while state != 2:
    action = np.argmax(q_table[state])
    next_state = get_next_state(state, action)
    path.append(next_state)
    state = next_state

print("最優路徑:", path)