🔹 前言 昨天我們談到 品質監控與幻覺偵測 , 就算模型輸出的答案正確,還要確保它「可靠、可信」。但即使模型回答正確,還有一個現實問題: 👉 為什麼我的 LLM...
前言 第二十天終於到了,這同時也表示旅程也將到終點了,照我的規劃,剩下的天數應該完全足夠把整個專案完成,並在最後一天做個總回顧跟一些可能的發展方向,理論上應該能...
🔹 前言 經過前面系列的文章,我們已經從零搭建出一條完整的 RAG Pipeline ,目前具備以下能力: 文件清洗與 Chunking 把原始文件整理成乾...
前言 歡迎來到第十七天!昨天我們為 Streaming 體驗加上了「打字機效果」和「取消功能」,讓 AI 面試官的互動感覺更流暢、更可控。整個通訊管道現在可以說...
前面指標能介紹的都介紹完了,今天就開始我們的實作吧!要複習的話可以參考前幾天的內容,就讓我們開始ㄅ~ 1. 安裝環境這邊我們使用 Ollama + Mistr...
昨天介紹了 RAGAs 當中的核心指標了,今天是主要討論跟總結。其實昨天只提到了最主要的核心部分,不過還有很多可以去仔細翻閱查看,這邊就留給大家學習了,絕對不是...
前面有介紹過一些傳統的指標像是精確率、召回率那些,不過那些指標都不能完整的反應 RAG 的效能,因為 RAG 的系統同時會牽涉到「檢索」與「生成」兩個部分,所以...
今天只負責總結內容噢!如果需要看更詳細的內容就請回顧下面這兩天的: Day 15|RAG 評估指南(1/2):檢索指標(上) Day 16|RAG 評估...
延續昨天的內容,如果想回顧其他指標的話可以看上一篇--Day 15|RAG 評估指南(1/2):檢索指標(上)廢話不多說了,我們馬上開始! 5. F1 分數...
昨天有說到 RAG 的效能衡量可以分成兩大類,今天就是要先介紹檢索指標(Retrieval metrics)。我們不需要把檢索和生成混在一起看,而是可以單獨檢查...
這次要講的內容是 如何去評估 RAG 的效能。我們使用 RAG 的最大原因,就是希望能避免 LLM 產生幻覺,但問題是:即使結合了檢索,我們仍然不能百分之百保證...
在 Day 12,我們理解了 Embedding 這個將「語意」轉化為「數學座標」的魔法。在我們迫不及待地想把所有筆記都向量化之前,還有一個極其重要、卻也最常被...
今天要實作的內容是 Generation pipeline 的部分,就是怎麼將提問跟 RAG 檢索到的資料全部丟到 LLM 給他做回應。 因為這邊後面的實作內容...
🔹 前言 經過前幾天(Day 8–11) 的實作,我們已經完成了從 文件清洗 → Chunking → 向量化 → 索引 → 查詢流程 → 上下文組裝 的基礎。...
昨天已經教學大家要怎麼做 Chunking 了,今天就是要教學如何把它放進一個可以用來查詢的資料庫,這邊我們也會試著提問,看產出。雖然我昨天的教學只有教你怎麼切...
今天就開始我們的實作,這次我取用的資料是資通安全管理法,這邊可以直接點擊網站下載。 1. 取得文件內的文字要處理這個文件前,要先取得這個檔案的內容。 # 要先安...
前言 歡迎來到第九天!昨天我們透過了解了 RAG 的基本概念並透過 Gemini Embedding API 實際看到了文字是怎麼轉為向量陣列的,我自己相當喜歡...
新來的朋友,建議可以先回顧前幾天的文章,之前已經分別聊過 RAG 的兩大流程: Indexing pipeline:資料怎麼被處理、切割、轉換成向量,最後存進...
前言 歡迎來到第二週!真虧你看完昨天那篇落落長的鬼東西還沒棄坑,真有你的!我打完看了一下字數約四萬字,自己也傻了一下,但為了系列文的完整度我又不能直接跳過那些程...
延續 Day 7|Generation pipeline:AI 如何把知識取出來用 的內容,這邊要講到 Prompt Engineering,這邊會很重要的原因...
在 Day 7|Generation pipeline:AI 如何把知識取出來用 有說到檢索方式其實有很多種,今天就來介紹幾種常見的檢索方式。 1. TF-...
🔹 前言 昨天我們做了一個最小可行的 QA Bot,但知識庫的單位是「整句 FAQ」,格式非常乾淨。 然而真實情況下,文件來源可能包含: Word / PDF...
之前我們已經討論過 Indexing pipeline 是怎麼把知識存進去,現在就要來看 Generation pipeline 如何把知識「取出來用」。這邊可...
🔹 前言 昨天 (Day 6) 我們第一次跑出 Minimal RAG QA Bot,流程是: 使用者提問 → Embedding → 檢索 → LLM 回答。...
🔹 前言 前兩天我們分別搞定了 RAG 的兩個基礎拼圖: Day 4 向量資料庫 → 負責「存資料」以及「找尋片段」 Day 5 Embedding 模型...
新來的朋友,一樣先建議先回顧先前的文章,才會比較明白整個 Indexing pipeline 的流程以及這章是在哪個環節噢!文章在這:Day 3|Indexin...
怕大家突然看到這篇會不知道為什麼跳到這部分,如果是新來的朋友想了解詳細流程,可以先回顧我之前第三天的文章:Day 3|Indexing pipeline:如何為...
昨天把 Indexing pipeline 跑過一遍:從資料載入、Chunking、Embeddings,到向量資料庫。要讓 RAG 找到「對的內容」,關鍵在第...
硬體眾籌,參差不齊的起點 當這個專案從「需求」走到「實作」的階段時,我們面臨的第一個現實問題,就是硬體來源。 所有設備都是透過志工與善心人士眾籌而來的。這聽起來...
昨天看到 RAG 架構,今天要更深入,看看如何建立知識庫。 我們先看這張圖來逐一拆解他的步驟:來源:Build a Retrieval Augmented Ge...