這是一個以 RAG為名的系列,但其實大部分篇幅應該都在處理資料,預計內容包含:
(1) 取得(context, question, answer)對的三種方法
(2) 以Label Studio建立ground-truth
(3) 搭建 RAG baseline
(4) 探索驗證框架
(5) 各式方法論的實測
我會實測檢索的recall 、答題的忠實度以及 LLM as a judge的表現
看看現代 LLM/RAG/Agent 在自製題目集的能力與限制
Situation 我們在 Day18: structured output challenge 跑了 5 個選手的 inference 結果,他們分別是:...
Situation 我們昨天 Day20: Structured Output 初驗!五大選手比拚結果 使用 normalized_exact_match 初...
tl;dr 我們今天會實際驗證兩個 embed model(text-embedding-3-small 和 text-embedding-ada-002)...
Intro 我們今天要來實作 RAG baseline,當然,用的是 llama-index 的 workflow 如果你對 llama-index 的...
Intro 我們昨天用 workflow 架構了我們的 Baseline RAG,並且跑出了對應的回答我們今天有三個需求: 首先我們需要一個 End-to-E...
Intro 最後一個篇章我們要把 Evaluating 加到解題的過程裡 系統會自己檢索,自己看看有沒有找到,再自己回答,(也許)再自己看看有沒有亂講 所...
Intro 延續昨天的討論: 目前主要的問題集中在 Retriever 階段 我們可以透過 Context_Relevancy 來驗證 Retrieval 結...
Day27: 開源的標註工具: Label-Studio Intro 今天是相對獨立的一篇,我們想要介紹 Label-Studio 這款標註工具 順便把我們最...
Intro 我們今天將會搭建我們開篇以來最複雜的 workflow,他的長相如下:但實測後這個 workflow 的答題率仍然只有 7/10究竟是怎麼回事,我們...
Day29: multi step workflow Intro 首先是我們今天架設的 workflow 的正確題數: print(f"{...