iT邦幫忙

1

DAY24:模型的評估(上)

2025-10-23 15:15:49182 瀏覽
  • 分享至 

  • xImage
  •  

在AI模型開發的過程中,我們不只要讓模型會說話,更要知道它說得好不好。
這就牽涉到模型的Evaluation(評估)。
而評估的核心,就是透過一系列標準化測試來驗證模型的品質,也就是所謂的Benchmark。


Benchmark是什麼?
Benchmark字面意思就是拿來比較的標準。
在AI領域,它指的是一組固定的測驗題與標準答案,用來測試模型在特定任務上的表現。

例如:
想知道模型是否懂常識 → 可以用HellaSwag測試。
想測它的邏輯推理能力 → 用MMLU。
想評估醫療領域的知識 → 可用PubMedQA或MedMCQA。

當我們想評估AI模型生成的回答是否正確,就能藉由Benchmark來驗證它的準確度與一致性。


要讓Benchmark能夠量化結果,就需要設定評分標準,
這些衡量模型輸出好壞的指標叫做Evaluation Metrics。
而模型應該產生的正確答案,我們稱為Ground Truth(標準答案)。


常見的Evaluation Metrics有:

  1. Exact Match:模型回答必須與標準答案完全一致,通常用於客觀明確的題目。
  2. Similarity(語義相似度):衡量模型輸出與標準答案的相似程度。(ex.BLEU翻譯、ROUGE摘要)
  3. Contextual Embedding(語境嵌入評分):利用模型本身的語意理解能力(ex.BERTScore),根據上下文語義比較回答與標準答案之間的距離,適合評估長文本或開放式問答。

圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言