[Day 5] Recommender Systems with Generative Retrieval - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 5

1

AI/ ML & Data

30 Days of AI Research系列第 5 篇

[Day 5] Recommender Systems with Generative Retrieval

16th鐵人賽 recommendation retrieval paper

2024-08-05 15:28:04

364 瀏覽

分享至

Paper link | Note link | Code link | NeurIPS 2023

整體想法

本研究使用 Semantic IDs 來檢索用戶的推薦項目。

摘要

本研究不使用查詢嵌入來檢索前幾名候選項目。

相反，它為每個項目建立一個 Semantic IDs，並使用基於 Transformer 的 seq2seq 模型來預測用戶將與之互動的下一個項目的 Semantic IDs。

背景

通常，推薦系統使用檢索和排序策略來幫助用戶發現感興趣的內容：

檢索階段：基於各種過濾技術，檢索一組可能與用戶相關的候選項目。
排序階段：根據檢索到的候選項目的相關性和用戶參與的可能性進行排序。

方法

這篇論文提出了「Transformer Index for GEnerative Recommenders（TIGER）」，這是一個生成式檢索型推薦框架，為每個項目分配語義ID，並訓練檢索模型來預測給定用戶可能會互動的項目的 Semantic ID。

TIGER 提供了兩個主要優勢：

能夠推薦新的和不常見的項目。
可以通過可調參數生成多樣化的推薦。

Semantic ID Generation

Semantic ID 設定為長度為的代碼字元組。

每個代碼字來自不同的 codebook。

因此，Semantic ID 可以唯一地表示的項目數量等於 codebook 大小的乘積。

生成 Semantic ID 的過程從獲得來自預訓練 encoder 的語義嵌入開始。

RQ-VAE 學習潛在表示。

在第級（），初始殘差定義為。

對於第級，過程重複次：

在每個級別，都有一個 codebook ，其中是 codebook 的大小。
最接近的嵌入被表示為。

注意，他們選擇對每個級別使用大小為的獨立 codebook。

然後，計算量化表示，並將其傳遞給 decoder 以重建輸入。

RQ-VAE 損失函數聯合訓練 encoder、decoder 和 codebook:

其中

且

Generative Retrieval with Semantic IDs

推薦系統嘗試從序列中預測下一個項目。

本研究改為直接預測下一個項目的 Semantic ID。

給定一個項目序列，預測的本研究改為直接預測下一個項目的 Semantic ID，即。

實驗

他們在來自 Amazon Product Reviews dataset 的三個公共實際基準上測試了他們的框架。

在這裡，他們使用了三個類別：“美容”，“體育和戶外”以及“玩具和遊戲”。

對於語義 encoder，使用了預訓練的 Sentence-T5。

以下是顯示序列推薦性能比較的表格：

[Day 4] Fine-grained Late-interaction Multi-modal Retrieval (FLMR)

[Day 6] Recitation-Augmented Language Models

系列文

30 Days of AI Research 共 31 篇

目錄

RSS系列文訂閱系列文

10 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js