iT邦幫忙

2024 iThome 鐵人賽

DAY 12
0
AI/ ML & Data

30 Days of AI Research系列 第 13

[Day 12] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning

  • 分享至 

  • xImage
  •  

Paper link | Code link | EMNLP 2023

整體想法

本研究使用離線強化學習來提高開放式領域對話系統的質量和效用。

摘要

在開放式領域對話系統中,維持一致的角色設定至關重要。

與以往依賴於監督學習或在線強化學習的方法不同,本研究使用離線強化學習,這有助於減少訓練過程中重要性權重的變異性。

背景

近年來,大型語言模型在大量未標註的文本數據上進行訓練,並通過額外的微調來處理對話任務。

然而,在社交對話中保持一致性仍然是一個挑戰。以往的方法通過以下途徑來解決這個問題:

  • 以特定條件生成對話。
  • 結合監督學習和在線強化學習。

BlenderBot3 是一個由 Meta(前身為 Facebook)開發的先進開放式領域對話系統。

它旨在通過結合各種技術,包括大規模預訓練、微調和強化學習,來進行更自然且類人類的對話。

BlenderBot3 以其能夠在廣泛主題中維持一致的角色設定生成符合上下文的回應而著稱,使其成為對話 AI 領域中更為複雜的模型之一。

方法

image

Offline RL

他們的離線強化學習訓練方法使用了策略梯度方法來優化強化學習目標。

https://ithelp.ithome.com.tw/upload/images/20240812/20152821yHUa8KQ11x.png

其中,https://ithelp.ithome.com.tw/upload/images/20240812/20152821rr9rsSSZAO.png 是狀態 https://ithelp.ithome.com.tw/upload/images/20240812/20152821mqoK4k2ca5.png 和行為 https://ithelp.ithome.com.tw/upload/images/20240812/201528213g8Mncotjb.png 的軌跡,https://ithelp.ithome.com.tw/upload/images/20240812/20152821hDVzRlGooM.png 是折扣因子。

VaRMI Importance Sampling

使用基於策略梯度的離線強化學習方法最大的挑戰是梯度估計器中的高變異性。

在本研究中,他們通過減少策略梯度離線強化學習訓練過程中重要性權重的變異性來解決這個問題。

以下是兩個對話的例子:

image

image

實驗

本研究使用 DNLI 數據集來評估其方法的有效性。

他們研究中使用的評估指標包括:

  • Hits@1:測量從候選回應中選擇正確回應的準確性。
  • Entail@1:評估回應是否在邏輯上被給定上下文所包含的百分比。
  • Contradict@1:評估回應與上下文相矛盾的百分比。
  • Rand@1:測量與隨機基線的表現,其中回應是隨機選擇的。

以下是比較他們的重要性抽樣技術與 BB3 和 BB3+RL 基線的結果。

image

以下是他們兩種重要性抽樣技術與 BB3-3B 基線的人工評估結果(範圍從 1 到 5)。

image


上一篇
[Day 11] Guiding Pretraining in Reinforcement Learning with Large Language Models
下一篇
[Day 13] TRAVEL: Tag-Aware Conversational FAQ Retrieval via Reinforcement Learning
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言