[Day 8] Diversify Question Generation with Retrieval-Augmented Style Transfer - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 8

0

AI/ ML & Data

30 Days of AI Research系列第 8 篇

[Day 8] Diversify Question Generation with Retrieval-Augmented Style Transfer

16th鐵人賽 deep learning paper

2024-08-08 22:14:31

463 瀏覽

分享至

Paper link | Code link | EMNLP 2023

整體想法

這項新任務是透過一種定義了兩階段訓練過程（監督學習和強化學習）的方法來生成不同風格的問題。

這種方法確保了生成的問題既具有一致性又具備多樣性。

摘要

近期的研究主要集中在給定的段落或語義詞空間，以進行多樣化的內容規劃。

然而，外部知識在增強表達多樣性方面的潛力仍需更多的考量。

本研究針對檢索增強風格轉換（RAST），旨在利用外部知識生成使用多樣模板的問題，以提升表達的多樣性。

背景

問題生成（Question Generation, QG）是一項根據給定答案和基礎段落生成問題的任務。

然而，QG 系統面臨兩個主要問題：

不一致性：導致生成的問題與上下文或答案無關。
缺乏多樣性：QG 系統往往無法從相同的上下文和答案中生成多個不同的問題。

方法

RAST（檢索增強風格轉換）是一個框架，通過從外部集合中檢索問題風格模板，並利用這些模板來生成具有多樣表達的問題。

它包含三個主要組件：

基礎生成器（Vanilla Generator）：負責初步的模板規劃。
風格檢索器（Style Retriever）：根據初步模板篩選相關的風格模板。
基於風格的生成器（Style-Based Generator）：穩健地結合風格模板與內部上下文來生成最終問題。

RAST中的風格檢索器和基於風格的生成器可以通過基於強化學習（RL）的方法聯合訓練。

這種RL方法直接最大化一致性和多樣性獎勵的平衡組合，有效解決了不一致性和缺乏多樣性的問題。

Overview

在問題生成（Question Generation, QG）中，給定一段文字和答案，需要生成問題。

在這裡，我們可以將視為輸入。

以往的研究針對 QG 任務建模如下：

其中，是問題風格模板的外部資料庫，是根據上下文可以預測的初始問題模板。

系統會從外部知識中選擇與初始模板相似但不完全相同的風格模板。這些風格模板隨後用於生成問題。

在訓練過程中，給定上下文時，初始模板是通過屏蔽上下文相關資訊，從真實問題中提取出來的。

在推理過程中，系統使用基礎問題生成模型來生成最佳候選問題，然後從中提取出初始模板。

Question Style Templates

Masking

問題模板是通過屏蔽上下文相關資訊從收集到的問題中獲得的。

Duplication removal

通過測量成對的 Jaccard 相似度來移除近似重複的模板。

Retrieval-Augmented Style Transfer

Style Retrieval Model

查詢和樣本風格的編碼方式如下：

其中，是兩個 encoder 的參數。

Style Transfer Model

他們使用 T5 作為風格轉換模型：

其中，表示問題的長度，是模型參數。

Two-Stage Training

監督學習（Supervised Learning）: 用於初始化風格轉換模型。
強化學習（Reinforcement Learning, RL）: 應用於避免暴露偏差，並解決訓練和測試之間的評估差異。

Supervised Learning

由於在上的原始訓練過程可能會遭遇過擬合，他們引入噪音到模板以建立一個噪音模板：

用隨機實體替換 [MASK]。
添加一些名詞。
刪除 [MASK]。
隨機選擇另一個模板。

然後，他們使用 cross entropy loss 來訓練模型：

其中，代表預設答案標籤，代表在時間步的預測標籤。

Reinforcement Learning

RL for Style Retrieval and Transfer

在 RAST 中，系統被視為一個與由單詞和問題模板組成的外部環境互動的代理。綜合策略涉及選擇風格或預測下一個單詞。目標是最小化的獎勳函數給出如下：

其中，代表從風格轉換模型中抽樣的單詞，表示從風格檢索模型中抽樣的模板。

Reward Model

Consistency Reward

為了解決第一個問題，不一致性獎勳受到一篇關於問題回答的論文啟發。他們使用基於 T5 的生成性 QA 模型。不一致性獎勳的測量方法如下：

其中

在這裡，是答案的長度，是從中抽樣的問題。

Diversity Reward

為了解決第二個問題，多樣性獎勳使用 Jaccard 相似度，其定義為：

最終的總獎勳計算如下：

其中，是平衡參數。

實驗

在這項研究中，使用了兩個公共數據集：

SQuAD
NewsQA

評估中使用了以下指標：

Top-1 BLEU: 測量頂層生成問題的 BLEU 分數。
Oracle BLEU: 測量所有生成問題中的最高 BLEU 分數。
Pairwise BLEU: 測量生成問題對之間的 BLEU 分數，以評估多樣性。
Overall BLEU: 計算為。

注意，所有報告的 BLEU 分數均為 BLEU-4。

下圖顯示了在 NewsQA 和兩個 SQuAD 切分上不同技術的比較：

以下是三個 RAST 輸出示例，每個示例展示了不同類型的問題。在每個示例中，給定的答案在源上下文中用紅色突出顯示：

[Day 7] Benchmarking Large Language Models in Retrieval-Augmented Generation

[Day VIII] What is Vector Database?

系列文

30 Days of AI Research 共 31 篇

目錄

RSS系列文訂閱系列文

10 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js