iT邦幫忙

2024 iThome 鐵人賽

DAY 13
0
AI/ ML & Data

30 Days of AI Research系列 第 14

[Day 13] TRAVEL: Tag-Aware Conversational FAQ Retrieval via Reinforcement Learning

  • 分享至 

  • xImage
  •  

Paper link | EMNLP 2023

整體想法

本研究使用強化學習 (RL) 並識別相關和不相關的標籤,以改進檢索常見問題 (FAQ) 的過程。

摘要

線上客戶服務中,高效檢索常見問題 (FAQ) 是至關重要的。

現有的方法通過動態對話上下文來增強用戶查詢與 FAQ 問題之間的語義關聯。

本研究引入了使用標籤來幫助消除不相關信息的 FAQ 問題。

背景

對話式 FAQ 檢索的目的是在用戶與系統互動過程中找到與用戶意圖相符的 FAQ 問題。

當前的方法優先建模對話上下文中的語義信息。

然而,由於對領域的不熟悉或意外點擊,用戶可能會點擊與其意圖無關的問題。

這些不相關的信息,稱為“標籤”,會在對話上下文中引入噪聲,從而干擾檢索效率。

image

紅色紫色文本分別描述了上下文中的相關和不相關標籤

方法

他們提出了一種標籤感知的強化學習策略,該策略建模標籤在不相關性中的動態變化,以在最小的互動回合中實現成功的 FAQ 檢索。

在本研究中,作者將問題-答案對定義為 https://ithelp.ithome.com.tw/upload/images/20240813/20152821sK8ceqqX4J.png。每個問題 https://ithelp.ithome.com.tw/upload/images/20240813/20152821uAEtg6mCsA.png 被歸類到一組標籤 https://ithelp.ithome.com.tw/upload/images/20240813/201528211LGv6Ps2mm.png 中。

回合 https://ithelp.ithome.com.tw/upload/images/20240813/20152821uv9kuOOtfn.png 的對話上下文包括:

  • https://ithelp.ithome.com.tw/upload/images/20240813/20152821qeUMSZJETV.png: 記錄用戶 https://ithelp.ithome.com.tw/upload/images/20240813/20152821r2BgXG0cMM.png 的查詢。
  • https://ithelp.ithome.com.tw/upload/images/20240813/20152821SFI01qzb0W.png: 記錄用戶點擊的問題。
  • https://ithelp.ithome.com.tw/upload/images/20240813/201528212vKNy54KpE.png: 與用戶點擊的問題對應的標籤。
  • https://ithelp.ithome.com.tw/upload/images/20240813/2015282165saczXd86.png: 記錄用戶忽略的問題。
  • https://ithelp.ithome.com.tw/upload/images/20240813/20152821v16LjEt7FB.png: 與用戶忽略的問題對應的標籤。

image

本研究將TRAVEL(Tag-aware Reinforcement Learning)公式化為一個多回合的標籤感知強化學習框架。

其目標是學習一個最優策略 https://ithelp.ithome.com.tw/upload/images/20240813/20152821O3Xrfmc6Sv.png,其中狀態 https://ithelp.ithome.com.tw/upload/images/20240813/20152821n5OKBp0MNM.png 捕捉回合 https://ithelp.ithome.com.tw/upload/images/20240813/20152821uXhcYWeBAA.png 的對話上下文,https://ithelp.ithome.com.tw/upload/images/20240813/20152821rJkOVPpdEC.png 表示從候選中檢索的 FAQ 問題。

以下是研究中設計的五種不同的獎勳:

  1. https://ithelp.ithome.com.tw/upload/images/20240813/20152821jUyyevDX0n.png: 當用戶點擊問題時給予正獎勳。如果點擊的問題包含不相關的標籤,則此獎勳的值會降低。
  2. https://ithelp.ithome.com.tw/upload/images/20240813/20152821gUBYrDWMzV.png: 當用戶未點擊任何問題時給予負獎勳。
  3. https://ithelp.ithome.com.tw/upload/images/20240813/20152821PxC0hz0hiv.png: 當用戶成功檢索到目標問題時給予強正獎勳。
  4. https://ithelp.ithome.com.tw/upload/images/20240813/20152821fDDRY0p17x.png: 當回合數增加時給予負獎勳。

TRAVEL

標籤級狀態表示組件專注於估計對話上下文中的不相關標籤,並將此上下文轉換為狀態表示。

對話檢索策略優化組件利用狀態來確定 FAQ 檢索策略,使用 Q-Learning 來實現準確檢索,並目標是在最少的回合中完成。

實驗

資料集

他們使用自己的資料集,其中包含 72,013 個對話會話。

每個會話被表述為 https://ithelp.ithome.com.tw/upload/images/20240813/20152821ZC8xbRYFKH.png

資料集中有 1,449 個 FAQ 問題和 1,201 個標籤。

基準

他們將 TRAVEL 與兩類基準方法進行比較:

  1. FAQ 檢索
    • BERT_TSUBAKI
    • SBERT_FAQ
    • DoQA
    • CombSum
  2. 問題建議
    • CFAN
    • KnowledgeSelect
    • DeepSuggest

評估指標

  • Recall@5: 衡量在前 5 個結果中檢索到的相關 FAQ 問題的比例。
  • SR@k: 成功率於 k,表示在前 k 個結果中找到正確 FAQ 的對話百分比。
  • AT (Average Turn): 檢索到正確 FAQ 問題所需的平均回合數。
  • Average Shown (AS): 在找到正確 FAQ 之前顯示給用戶的 FAQ 問題的平均數量。
  • hNDCG@(T, K): 層次化標準化折扣累積增益於 T 和 K,通過考慮 FAQ 問題的相關性和位置來評估排名質量。

image


上一篇
[Day 12] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning
下一篇
[Day 14] Unveiling Fantastic Fact-Skeleton of LLMs via Ontology-Driven Reinforcement Learning
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言