這是一個以 RAG為名的系列,但其實大部分篇幅應該都在處理資料,預計內容包含:
(1) 取得(context, question, answer)對的三種方法
(2) 以Label Studio建立ground-truth
(3) 搭建 RAG baseline
(4) 探索驗證框架
(5) 各式方法論的實測
我會實測檢索的recall 、答題的忠實度以及 LLM as a judge的表現
看看現代 LLM/RAG/Agent 在自製題目集的能力與限制
day0: Index 這個系列以 RAG(Retrieval-Augmented Generation)為名,但真正的重點大部分都落在資料處理與驗證。整體開發...
TL;DR 我們今天兜了三個小工具,程式在這裡的days/day1python get_transcription.py是從自帶字幕的youtube連結獲取字幕...
Result 首先是今天的結果: { "query":"老師為何在課程中仍保留需要花三到四個小時訓練的作業?這類作業...