iT邦幫忙

2024 iThome 鐵人賽

DAY 5
1
AI/ ML & Data

30 Days of AI Research系列 第 5

[Day 5] Recommender Systems with Generative Retrieval

  • 分享至 

  • xImage
  •  

Paper link | Note link | Code link | NeurIPS 2023

整體想法

本研究使用 Semantic IDs 來檢索用戶的推薦項目。

摘要

本研究不使用查詢嵌入來檢索前幾名候選項目。

相反,它為每個項目建立一個 Semantic IDs,並使用基於 Transformer 的 seq2seq 模型來預測用戶將與之互動的下一個項目的 Semantic IDs。

image

背景

通常,推薦系統使用檢索和排序策略來幫助用戶發現感興趣的內容:

  1. 檢索階段:基於各種過濾技術,檢索一組可能與用戶相關的候選項目。
  2. 排序階段:根據檢索到的候選項目的相關性和用戶參與的可能性進行排序。

方法

這篇論文提出了「Transformer Index for GEnerative Recommenders(TIGER)」,這是一個生成式檢索型推薦框架,為每個項目分配語義ID,並訓練檢索模型來預測給定用戶可能會互動的項目的 Semantic ID。

TIGER 提供了兩個主要優勢:

  1. 能夠推薦新的和不常見的項目。
  2. 可以通過可調參數生成多樣化的推薦。

image

Semantic ID Generation

Semantic ID 設定為長度為 https://ithelp.ithome.com.tw/upload/images/20240805/20152821TJVEOP1Why.png 的代碼字元組。

每個代碼字來自不同的 codebook。

因此,Semantic ID 可以唯一地表示的項目數量等於 codebook 大小的乘積。

image

生成 Semantic ID 的過程從獲得來自預訓練 encoder 的語義嵌入 https://ithelp.ithome.com.tw/upload/images/20240805/20152821qBVXEb4xQe.png 開始。

RQ-VAE 學習潛在表示 https://ithelp.ithome.com.tw/upload/images/20240805/20152821lkPyunqsIA.png

在第 https://ithelp.ithome.com.tw/upload/images/20240805/20152821qmeGo4PVzl.png 級(https://ithelp.ithome.com.tw/upload/images/20240805/20152821ss2tYosBaz.png),初始殘差定義為 https://ithelp.ithome.com.tw/upload/images/20240805/201528217bV1yM4mP5.png

對於第 https://ithelp.ithome.com.tw/upload/images/20240805/20152821qgkkeDPf3U.png 級,過程重複 https://ithelp.ithome.com.tw/upload/images/20240805/20152821wHGZVv1qNO.png 次:

  1. 在每個級別 https://ithelp.ithome.com.tw/upload/images/20240805/20152821y4lt1rJFE3.png,都有一個 codebook https://ithelp.ithome.com.tw/upload/images/20240805/20152821T9ytmHbFgF.png,其中 https://ithelp.ithome.com.tw/upload/images/20240805/201528214cN9QbxN9C.png 是 codebook 的大小。
  2. 最接近的嵌入 https://ithelp.ithome.com.tw/upload/images/20240805/2015282183lHJQ6Rra.png 被表示為 https://ithelp.ithome.com.tw/upload/images/20240805/20152821JnYPncNtq0.png

注意,他們選擇對每個 https://ithelp.ithome.com.tw/upload/images/20240805/20152821tgvcK1eW3A.png 級別使用大小為 https://ithelp.ithome.com.tw/upload/images/20240805/20152821kfUrKh9CCW.png 的獨立 codebook。

然後,計算量化表示 https://ithelp.ithome.com.tw/upload/images/20240805/20152821ljF9K9aBOs.png,並將其傳遞給 decoder 以重建輸入 https://ithelp.ithome.com.tw/upload/images/20240805/20152821Vfr3ANWol6.png

RQ-VAE 損失函數聯合訓練 encoder、decoder 和 codebook:

https://ithelp.ithome.com.tw/upload/images/20240805/201528215jSxhnIr1k.png

其中

https://ithelp.ithome.com.tw/upload/images/20240805/20152821ECq8BtPBdA.png

https://ithelp.ithome.com.tw/upload/images/20240805/20152821obX7buT0wy.png

Generative Retrieval with Semantic IDs

推薦系統嘗試從序列 https://ithelp.ithome.com.tw/upload/images/20240805/20152821GKrC7zJg18.png 中預測下一個項目 https://ithelp.ithome.com.tw/upload/images/20240805/20152821p1KYt8wKpN.png

本研究改為直接預測下一個項目的 Semantic ID。

給定一個項目序列 https://ithelp.ithome.com.tw/upload/images/20240805/20152821qZGnqagnwL.png,預測 https://ithelp.ithome.com.tw/upload/images/20240805/20152821U4bvW4NrWp.png 的本研究改為直接預測下一個項目的 Semantic ID,即 https://ithelp.ithome.com.tw/upload/images/20240805/20152821I2IwQnJ77L.png

實驗

他們在來自 Amazon Product Reviews dataset 的三個公共實際基準上測試了他們的框架。

在這裡,他們使用了三個類別:“美容”,“體育和戶外”以及“玩具和遊戲”。

對於語義 encoder,使用了預訓練的 Sentence-T5

以下是顯示序列推薦性能比較的表格:

image


上一篇
[Day 4] Fine-grained Late-interaction Multi-modal Retrieval (FLMR)
下一篇
[Day 6] Recitation-Augmented Language Models
系列文
30 Days of AI Research31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言