iT邦幫忙

2024 iThome 鐵人賽

DAY 9
0
AI/ ML & Data

30 Days of AI Research系列 第 10

[Day 9] Reward Design with Language Models

  • 分享至 

  • xImage
  •  

Paper link | Note link | Code link | ICLR 2023

整體想法

這項研究探討了使用提示策略配合大型語言模型(LLM)來訓練強化學習(RL)方法。

具體而言,它研究了如何利用LLMs生成與用戶目標一致的 reward,並使用如 DQN 或 on policy RL 來評估這些方法。

摘要

在強化學習中,設計有效的獎勵函數是一項具有挑戰性的任務。

本研究通過使用代理獎勵函數來解決這個問題,其中涉及到提示大型語言模型。

背景

自主代理在今天變得越來越有價值,因為它們可以根據人類用戶行為來學習政策,以改善控制和決策。然而,實施這項技術面臨兩個主要挑戰:

  1. 設計有效的獎勵函數。
  2. 獲取大量標註數據的來源。

方法

image

強化學習可以建模為馬可夫決策過程(MDP),其中代理在每個回合中選擇行動,以最大化累積獎勳。

在本研究中,馬可夫決策過程定義為 https://ithelp.ithome.com.tw/upload/images/20240809/20152821dYFnqJm3I2.png,其中 https://ithelp.ithome.com.tw/upload/images/20240809/20152821vr8oetcRbN.png 代表迄今為止談判中的話語表示空間,https://ithelp.ithome.com.tw/upload/images/20240809/2015282113jIJyx24I.png 是狀態空間(所有可能話語的集合)。函數 https://ithelp.ithome.com.tw/upload/images/20240809/20152821TV9zbwsG95.png 表示轉移概率,而 https://ithelp.ithome.com.tw/upload/images/20240809/20152821J4ldpItayy.png 是折扣因子。

傳統上,獎勳函數 https://ithelp.ithome.com.tw/upload/images/20240809/20152821Cp0Sca5Pki.png 將狀態和行動映射為實數。

在本研究中,使用大型語言模型(LLM)作為代理獎勳函數,其中 LLM 接收文本提示並輸出字串。

在這裡,https://ithelp.ithome.com.tw/upload/images/20240809/20152821Mh8y7QgODx.png 定義為所有字串的集合,而 https://ithelp.ithome.com.tw/upload/images/20240809/20152821LyauSZDYLU.png 代表一個文本提示。大型語言模型表示為 https://ithelp.ithome.com.tw/upload/images/20240809/20152821e4TjggjPKB.png

對於給定的提示 https://ithelp.ithome.com.tw/upload/images/20240809/20152821c6vPdAKlAz.png,它包含以下部分:

  1. https://ithelp.ithome.com.tw/upload/images/20240809/20152821aAiCdpENvC.png: 一個詳細描述當前任務的字串。
  2. https://ithelp.ithome.com.tw/upload/images/20240809/201528213aWTUALUxY.png: 用戶提供的字串,概述了他們的目標,可以是提供 https://ithelp.ithome.com.tw/upload/images/20240809/20152821sW1d1ZtKYW.png 個示例或通過自然語言描述他們的目標。
  3. https://ithelp.ithome.com.tw/upload/images/20240809/20152821AenTIkTViY.png: 來自 RL 回合的狀態和行動的文本表示,使用解析器 https://ithelp.ithome.com.tw/upload/images/20240809/20152821CrDUmqrhGI.png 生成。
  4. https://ithelp.ithome.com.tw/upload/images/20240809/20152821u9Zcy0bGqn.png: 一個問題,詢問 RL 代理的行為(如 https://ithelp.ithome.com.tw/upload/images/20240809/20152821vAFknf3c81.png 所述)是否符合 https://ithelp.ithome.com.tw/upload/images/20240809/20152821oWFHyawGnk.png 中概述的用戶目標。

最後,他們定義了一個二進制值 https://ithelp.ithome.com.tw/upload/images/20240809/20152821BxxfHortp1.png,將 LLM 的文本輸出映射為二進制值。

實驗

在這一部分,他們評估了三種不同的問題和各種任務:

  1. 少樣本提示:大型語言模型(LLMs)是否能根據提供的少量示例生成與用戶目標一致的獎勳信號?
    • 任務:Ultimatum Game(少樣本)

image

  1. 零樣本提示:當目標清晰定義時,LLMs 是否能在沒有任何示例的情況下生成與這些目標一致的獎勳信號?
    • 任務: Matrix Games(零樣本)

image

  1. 複雜領域中的少樣本提示:LLMs 是否能從更複雜、長期的情境中的示例中生成與用戶目標一致的獎勳信號?
    • 任務:Deal Or No Deal(少樣本)

image

評估中使用了兩個指標:

  1. 標註準確率:這測量了在強化學習(RL)訓練期間,預測的獎勳值與真實獎勳函數的平均準確度。

  2. 代理準確率:這測量了RL代理本身的平均準確度。

在實驗中,與監督學習(SL)模型進行了比較。對於LLM,他們使用了GPT-3,並使用 DQN 算法或在政策RL方法進行訓練。


上一篇
[Day VIII] What is Vector Database?
下一篇
[Day 10] Pre-Trained Language Models for Interactive Decision-Making
系列文
30 Days of AI Research30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言