iT邦幫忙

2025 iThome 鐵人賽

DAY 21
0

有時候我們向AI問問題或提出我們的需求,並且它也生成了回應給我們,但有時候我們也不知道它生成的內容是好是壞,這時候評估AI的輸出品質就很重要了。


評估品質可以幹嘛?
啊不然你要放它爛喔(不是)
AI可能有幻覺的問題:模型有時會亂編內容,講一些2266,看起來合理卻是錯的。
專案需要穩定性:如果要用於產品或商業決策,品質要有標準。
可迭代改進:要知道問題在哪裡,才能調整 Prompt、資料或模型。


評估品質的方向
大概可以分成幾項 :
正確性 (Accuracy) : 事實是否正確、數據是否正確?
完整性 (Completeness) : 是否涵蓋關鍵要點?
一致性 (Consistency) : 前後敘述有無矛盾?
相關性 (Relevance) : 回答是否與問題直接相關?
清晰度 (Clarity) : 語句是否易懂、結構是否合理?
引用與可追溯性 (Traceability) : 有無標註來源、是否能驗證?


評估品質的方法

  1. 基本人工檢查
    可以自己先檢查日期、數字、專有名詞等比較容易簡單找到正解的部分來檢查,並比對官方來源。

  2. 反問 AI 自己
    對同一輸入再次詢問:「請提供來源」或「請檢查剛才的答案是否正確」。
    雖然不能完全相信,但有時AI能自己抓出明顯錯誤。

  3. 使用多模型交叉驗證
    把同一問題分別丟給不同 AI(像同時詢問GPT與Claude之類的)。
    如果不同模型間的答案差異很大,就要特別注意答案的正確性。


稍微提升輸出品質的方法
加強 Prompt:要求附上來源或逐步推理。
結合 RAG:用自己的資料庫替代模型記憶。
多輪驗證:先問重點,再要求總結,檢查是否有問題。


上一篇
Day 20 . Prompt Engineering : 我說的話太高深莫測,AI聽不懂,如何設計更高效的對話流程?
下一篇
Day 22 . AI的偏見與安全風險 嚴厲斥責你發瘋啦
系列文
30天從不認識生成式AI到好像稍微可能有點熟悉的過程22
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言