LLM 評估鐵三角:Perplexity、BLEU 與 Human Eval
我們到底該怎麼評價一個 AI?
隨著大型語言模型(LLM)的爆炸式成長,它們的應用...
到了第 15 天,我們開始會遇到一個更真實的挑戰:專案越來越大,程式碼開始需要共用元件,同時,也更容易遇到各種 Build 錯誤。
今天的主題,就是要讓你學會...
時間來到第 14 天,鐵人賽進度正好一半。回顧這一週,做新專案的時間並不多,主要還是把之前用過的工具再做整合或優化。一方面是想再熟悉現有工具,另一方面也是檢視哪...
今天則補上最後一塊拼圖:Tools。讓整個 agent-brain 真正動起來。
BaseTool 抽象介面
我先定義了一個最小的 BaseTool 介面,包...
介紹
昨天已經把整個 OWASP LLM Top 10 的基本概念介紹完畢,今天會實際使用 LLM Guard 這個工具來實作這些防護機制。從它們的 Docum...
昨天我們做了一個 互動式 FAQ QA 系統,
雖然能找到正確答案,但回答方式有點生硬,像是死板板的資料庫。
今天我們要升級把 FAQ 的答案丟給 Chat 模...