在AI模型開發的過程中,我們不只要讓模型會說話,更要知道它說得好不好。
這就牽涉到模型的Evaluation(評估)。
而評估的核心,就是透過一系列標準化測試來驗證模型的品質,也就是所謂的Benchmark。
Benchmark是什麼?
Benchmark字面意思就是拿來比較的標準。
在AI領域,它指的是一組固定的測驗題與標準答案,用來測試模型在特定任務上的表現。
例如:
想知道模型是否懂常識 → 可以用HellaSwag測試。
想測它的邏輯推理能力 → 用MMLU。
想評估醫療領域的知識 → 可用PubMedQA或MedMCQA。
當我們想評估AI模型生成的回答是否正確,就能藉由Benchmark來驗證它的準確度與一致性。
要讓Benchmark能夠量化結果,就需要設定評分標準,
這些衡量模型輸出好壞的指標叫做Evaluation Metrics。
而模型應該產生的正確答案,我們稱為Ground Truth(標準答案)。
常見的Evaluation Metrics有: