這是一個以 RAG為名的系列,但其實大部分篇幅應該都在處理資料,預計內容包含:
(1) 取得(context, question, answer)對的三種方法
(2) 以Label Studio建立ground-truth
(3) 搭建 RAG baseline
(4) 探索驗證框架
(5) 各式方法論的實測
我會實測檢索的recall 、答題的忠實度以及 LLM as a judge的表現
看看現代 LLM/RAG/Agent 在自製題目集的能力與限制
Situation 我們在 Day18: structured output challenge 跑了 5 個選手的 inference 結果,他們分別是:...
Situation 我們昨天 Day20: Structured Output 初驗!五大選手比拚結果 使用 normalized_exact_match 初...
tl;dr 我們今天會實際驗證兩個 embed model(text-embedding-3-small 和 text-embedding-ada-002)...
Intro 我們今天要來實作 RAG baseline,當然,用的是 llama-index 的 workflow 如果你對 llama-index 的...