我們已經有了最小版的 RAG 小幫手,但接下來要面對一個現實問題:它的答案到底靠不靠譜? 如果沒有方法去檢查,小幫手就可能講得很流暢,但其實內容錯一半。
常見的...
LLM 評估鐵三角:Perplexity、BLEU 與 Human Eval
我們到底該怎麼評價一個 AI?
隨著大型語言模型(LLM)的爆炸式成長,它們的應用...
到了第 15 天,我們開始會遇到一個更真實的挑戰:專案越來越大,程式碼開始需要共用元件,同時,也更容易遇到各種 Build 錯誤。
今天的主題,就是要讓你學會...
時間來到第 14 天,鐵人賽進度正好一半。回顧這一週,做新專案的時間並不多,主要還是把之前用過的工具再做整合或優化。一方面是想再熟悉現有工具,另一方面也是檢視哪...
今天則補上最後一塊拼圖:Tools。讓整個 agent-brain 真正動起來。
BaseTool 抽象介面
我先定義了一個最小的 BaseTool 介面,包...
介紹
昨天已經把整個 OWASP LLM Top 10 的基本概念介紹完畢,今天會實際使用 LLM Guard 這個工具來實作這些防護機制。從它們的 Docum...