iT邦幫忙

2025 iThome 鐵人賽

DAY 22
0

  在前面幾天,我們學會了 LLM 的基本概念、架構及訓練,今天我們要進入應用篇的第一步,如何評測一個 LLM,如果沒有標準的評測,就無法客觀的知道模型到底學的好不好。

為什麼需要 LLM 評測

  隨著 LLM 應用在教育、醫療、金融等各領域,只讓模型會生成文字已經不夠,我們需要知道他是否能理解多學科的知識(知識廣度)、是否能做出合理推理(邏輯能力)、在不同語言下表現是否一致(跨語言能力)、安全且不產生偏見(倫理與風控)
  而這些能力都需要透過標準化的評測集與排行榜來衡量,評測的目的不只是比較誰更強,更重要的是了解模型的長處與盲點,為後續改善提供依據。

主流的 LLM 評測集

目前學界與產業界常用的評測集可分為六大類,每一類對應不同的能力指標

  • 通用理解:MMLU,包含 57 個學科(如歷史、物理、生物、法律),全面測試模型的知識廣度與推理能力,是 LLM 的「通識考試」。

  • 工具使用:BFCL V2,模擬模型使用外部工具(如資料庫、API)解題的能力。

  • 數學推理:GSM8K / MATH

  • 科學與邏輯推理:ARC Challenge / GPQA / HellaSwag

  • 長文本理解:InfiniteBench / NIH

  • 多語言理解:MGSM

主流評測榜單(Leaderboard)

  • Open LLM Leaderboard (Hugging Face)
  • Lmsys Chatbot Arena
  • OpenCompass(中文評測)

各領域專用榜單

  除了綜合能力外,許多領域也有專屬的 LLM 評測集與榜單,像是 CFBenchmark(金融)、LawBench(法律)、MedBench(醫療)、Flames(安全)等,這些榜單可以讓我們依照需求精準挑選適合的模型。

參考連結:
https://datawhalechina.github.io/happy-llm/#/


上一篇
[Day21] PEFT & LoRA
下一篇
[Day23] 打造你自己的檢索增強生成(RAG)系統!
系列文
從上下文工程到 Agent:30 天生成式 AI 與 LLM 學習紀錄23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言