對於像機器翻譯、文本摘要或對話生成這類開放式生成任務,模型的輸出可能有無數種合理的答案。因此,我們需要專門的指標來客觀地衡量模型輸出的品質與相似度。這些指標利用數學計算,量化模型生成的文本(Candidate)與標準參考答案(Reference)之間的詞彙或片段的重疊程度。
由於自動化指標無法真正理解語義、邏輯或創意,人工評估在 LLM 領域仍是黃金標準。
評估方式 | 核心優勢 | 核心限制 | 適用時機 |
---|---|---|---|
自動評估 | 快速、客觀、可大規模應用。 | 不考慮語義、邏輯、創意,可能與人類感知不一致。 | 訓練過程中的快速迭代、初篩模型性能。 |
人工評估 | 能評估流暢度、正確性、相關性等主觀品質。 | 成本極高、耗時長、結果易受評估者主觀影響。 | 產品發布前的最終品質檢驗、評估複雜推理輸出。 |
人類評估者通常會對以下幾個維度進行打分: