RAG 如何做得好?

chatgpt rag openai notebooklm

Pythonist 2024-12-19 14:57:31 ‧ 1581 瀏覽

這幾天試用了 google notebooklm ，發現隨便上傳幾個文檔，其準確率高的非常嚇人。

目前測試的文檔類型

回顧自己嘗試建立的 RAG 實在慘不忍睹，目前看過很多提升 RAG 的技術，包含:

其中，我認為 chunk method 這部份是我遇到最大的瓶頸，往往會把連貫的內容拆分開來，導致後續搜索不完全，例如下面文檔:

Success Cases:
1. xxx
2. aaa
3. bbb

嘗試使用 Semantic，會因為 xxx, aaa, bbb 是不太一樣的內容，導致內容被切開。

嘗試使用 Recursion，會因為 chunk size 的初始設定，導致有機率被切開。

此時如果詢問 "success cases 有哪些?" ，基本上搜索的區塊只會有 xxx，後半段被拆開的則搜不到，然而這類型的問題在 notebooklm 都可以正確處理(實在佩服...)。

想請教版上的各位，是否能給我一些提升 RAG 的建議!

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

zivzhong

iT邦研究生 1 級 ‧ 2024-12-21 15:12:59

小小紅旗

iT邦新手 5 級 ‧ 2024-12-26 16:06:20

立即登入回答

IT邦幫忙