Paper link | Note link | Code link | ICML 2023
本文提出了 ELLM 方法,該方法使用大型語言模型根據代理的當前狀態生成目標,從而引導強化學習在缺乏外部獎勵的環境中有效地進行探索。
然而,這種方法依賴於環境特徵的準確性和語言模型的表現。
強化學習(RL)在缺乏密集獎勵的情況下表現不佳。
本質上驅動的探索在大型環境中僅能提供有限的幫助。
ELLM(使用語言模型進行探索)利用基於文本的背景知識來引導探索。
該方法通過語言模型建議的目標來獎勵代理,從而引導其朝著有意義的行為發展。
強化學習在頻繁獲得獎勵的情況下表現良好,但為複雜任務定義這些 reward 是具有挑戰性的。
在沒有外部 reward 的情況下,RL 代理仍需學習行為。
那麼,它們應該學習什麼呢?
本文介紹了一種稱為 Exploring with LLMs (ELLM) 的方法,該方法利用預訓練語言模型作為有用行為的消息來源。
ELLM 根據代理的上下文向語言模型詢問潛在目標,並對代理實現這些目標進行 reward。這種方法使探索傾向於多樣化、上下文敏感且對人類有意義的目標。
ELLM 訓練的代理在預訓練階段展示了更好的有用行為覆蓋率,並且在下游任務的微調中表現得更好或至少與基準持平。
將測試兩個假設:
他們在兩個複雜環境中評估 ELLM:
對於第一個假設
對於第二個假設