iT邦幫忙

2024 iThome 鐵人賽

DAY 11
0
AI/ ML & Data

30 Days of AI Research系列 第 12

[Day 11] Guiding Pretraining in Reinforcement Learning with Large Language Models

  • 分享至 

  • xImage
  •  

Paper link | Note link | Code link | ICML 2023

整體想法

本文提出了 ELLM 方法,該方法使用大型語言模型根據代理的當前狀態生成目標,從而引導強化學習在缺乏外部獎勵的環境中有效地進行探索。

然而,這種方法依賴於環境特徵的準確性和語言模型的表現。

摘要

強化學習(RL)在缺乏密集獎勵的情況下表現不佳。

本質上驅動的探索在大型環境中僅能提供有限的幫助。

ELLM(使用語言模型進行探索)利用基於文本的背景知識來引導探索。

該方法通過語言模型建議的目標來獎勵代理,從而引導其朝著有意義的行為發展。

背景

強化學習在頻繁獲得獎勵的情況下表現良好,但為複雜任務定義這些 reward 是具有挑戰性的。

在沒有外部 reward 的情況下,RL 代理仍需學習行為。

那麼,它們應該學習什麼呢?

方法

本文介紹了一種稱為 Exploring with LLMs (ELLM) 的方法,該方法利用預訓練語言模型作為有用行為的消息來源。

ELLM 根據代理的上下文向語言模型詢問潛在目標,並對代理實現這些目標進行 reward。這種方法使探索傾向於多樣化、上下文敏感且對人類有意義的目標。

ELLM 訓練的代理在預訓練階段展示了更好的有用行為覆蓋率,並且在下游任務的微調中表現得更好或至少與基準持平。

image

實驗

將測試兩個假設:

  1. 提示過的預訓練語言模型可以生成多樣化、符合常識和上下文敏感的探索目標。
  2. 在這些探索目標上訓練 ELLM 代理能夠提升下游任務的性能,相比於不使用語言模型先驗的其他方法。

他們在兩個複雜環境中評估 ELLM:

  • Crafter
  • Housekeep

image

對於第一個假設

image

對於第二個假設

image


上一篇
[Day 10] Pre-Trained Language Models for Interactive Decision-Making
下一篇
[Day 12] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言