這幾天試用了 google notebooklm ,發現隨便上傳幾個文檔,其準確率高的非常嚇人。
目前測試的文檔類型
回顧自己嘗試建立的 RAG 實在慘不忍睹,目前看過很多提升 RAG 的技術,包含:
chunk method
的選擇hybrid search
結合向量搜索與全文搜索BM25其中,我認為 chunk method
這部份是我遇到最大的瓶頸,往往會把連貫的內容拆分開來,導致後續搜索不完全,例如下面文檔:
Success Cases:
1. xxx
2. aaa
3. bbb
嘗試使用 Semantic
,會因為 xxx, aaa, bbb 是不太一樣的內容,導致內容被切開。
嘗試使用 Recursion
,會因為 chunk size
的初始設定,導致有機率被切開。
此時如果詢問 "success cases 有哪些?" ,基本上搜索的區塊只會有 xxx,後半段被拆開的則搜不到,然而這類型的問題在 notebooklm 都可以正確處理(實在佩服...)。
想請教版上的各位,是否能給我一些提升 RAG 的建議!