iT邦幫忙

0

RAG 如何做得好?

  • 分享至 

  • xImage

這幾天試用了 google notebooklm ,發現隨便上傳幾個文檔,其準確率高的非常嚇人。

目前測試的文檔類型

  • 8個 markdown 檔,各檔案文字不超過 3k
  • 2個 pdf 檔,各檔案文字皆超過 10k

回顧自己嘗試建立的 RAG 實在慘不忍睹,目前看過很多提升 RAG 的技術,包含:

  1. chunk method 的選擇
  2. hybrid search 結合向量搜索與全文搜索BM25

其中,我認為 chunk method 這部份是我遇到最大的瓶頸,往往會把連貫的內容拆分開來,導致後續搜索不完全,例如下面文檔:

Success Cases:
1. xxx
2. aaa
3. bbb

嘗試使用 Semantic,會因為 xxx, aaa, bbb 是不太一樣的內容,導致內容被切開。

嘗試使用 Recursion,會因為 chunk size 的初始設定,導致有機率被切開。

此時如果詢問 "success cases 有哪些?" ,基本上搜索的區塊只會有 xxx,後半段被拆開的則搜不到,然而這類型的問題在 notebooklm 都可以正確處理(實在佩服...)。

想請教版上的各位,是否能給我一些提升 RAG 的建議!

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友回答

立即登入回答