iT邦幫忙

2025 iThome 鐵人賽

DAY 18
0
佛心分享-IT 人自學之術

LLM入門學習系列 第 18

Day 18:評估指標 (Evaluation Metrics) — 衡量 LLM 的品質

  • 分享至 

  • xImage
  •  

1. 自動化評估指標

對於像機器翻譯、文本摘要或對話生成這類開放式生成任務,模型的輸出可能有無數種合理的答案。因此,我們需要專門的指標來客觀地衡量模型輸出的品質與相似度。這些指標利用數學計算,量化模型生成的文本(Candidate)與標準參考答案(Reference)之間的詞彙或片段的重疊程度

🔹 (A) BLEU (Bilingual Evaluation Understudy)

  • 應用:機器翻譯(Machine Translation)最常用的指標。
  • 核心原理:計算生成文本中,有多少 N-gram(連續的 N 個詞)出現在參考答案中。通常會計算 1-gram 到 4-gram 的匹配率並取加權平均。
  • 優點:計算快速、客觀,適合大規模的迭代評估。
  • 限制只注重詞面重疊,無法捕捉語義相近但用詞不同的情況。

🔹 (B) ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

  • 應用:文本摘要(Text Summarization)最常用的指標。
  • 核心原理:與 BLEU 相似,但更強調召回率 (Recall),即參考答案中的核心資訊有多少被模型輸出覆蓋。
  • 常見變體
    • ROUGE-N:計算 N-gram 的重疊率(例如 ROUGE-1, ROUGE-2)。
    • ROUGE-L:計算最長公共子序列 (LCS, Longest Common Subsequence) 的匹配度,能捕捉句子的主要資訊流。
  • 優點:適合需要保留重要資訊的摘要任務。
  • 限制:同樣是字面匹配為主,無法評估邏輯連貫性或流暢度。

🔹 (C) Perplexity (困惑度, PPL)

  • 應用:評估語言模型的通用流暢度
  • 核心原理:衡量模型在預測測試文本中的下一個詞時的不確定性或「困惑」程度。
  • 解讀Perplexity 值越低越好。低值表示模型對語言的分佈更有信心,生成文本時會更流暢自然。

2. 人工評估 vs. 自動評估

由於自動化指標無法真正理解語義、邏輯或創意,人工評估在 LLM 領域仍是黃金標準

評估方式 核心優勢 核心限制 適用時機
自動評估 快速、客觀、可大規模應用。 不考慮語義、邏輯、創意,可能與人類感知不一致。 訓練過程中的快速迭代、初篩模型性能。
人工評估 能評估流暢度、正確性、相關性等主觀品質。 成本極高、耗時長、結果易受評估者主觀影響。 產品發布前的最終品質檢驗、評估複雜推理輸出。

人工評估的常見標準

人類評估者通常會對以下幾個維度進行打分:

  1. 流暢度 (Fluency):文本是否符合語法、語氣是否自然。
  2. 正確性 (Factual Correctness):生成的資訊是否真實、沒有編造(尤其在 RAG 任務中)。
  3. 相關性 (Relevance):是否真正、完整地回答了用戶的問題。
  4. 多樣性 (Diversity):回答是否不重複、具有創造性。

✅ 總結

  • BLEU:主要用於翻譯,衡量 n-gram 重疊
  • ROUGE:主要用於摘要,衡量詞序/片段重疊(強調召回)。
  • Perplexity:衡量語言模型的通用流暢度
  • 在研究和實務應用中,必須將自動指標與人工評估結合,才能對 LLM 的表現做出全面而可靠的判斷。

上一篇
Day 17:RAG (Retrieval-Augmented Generation) 入門
下一篇
Day 19:LLM 部署方式 — 將模型成果轉化為應用
系列文
LLM入門學習20
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言