iT邦幫忙

0

DAY25:模型的評估(下)

2025-10-24 16:49:44123 瀏覽
  • 分享至 

  • xImage
  •  

上一篇我們提到,當我們想判斷評估模型回答得好不好時,可以利用Benchmark來觀察模型獲得的Evaluation score。不過要注意的是,分數雖然是量化表現的依據,但我們不能過度依賴或盲目信任它!


為什麼不可過度相信Evaluation score?
雖然分數能幫助我們快速比較不同模型的表現,但它不一定代表真正的理解能力。
這裡有個重要原則叫Goodhart’s Law(古德哈特定律):

當一個衡量標準變成了目標,它就不再是好的衡量標準。

這是什麼意思呢,就是如果我們一味追求讓分數變漂亮,模型反而可能學會迎合測驗而非真正理解問題。
這也是生成式AI常見的幻覺(Hallucination)現象成因之一。
有時候,模型為了讓答案看起來完整,會自信地生成錯誤內容,這類模型在評測上可能得分不錯,但實際上只是表面聰明、內容卻錯得離譜。
所以高分並不代表可靠,Evaluation score應該是參考依據,而不是最終答案!


為了避免過度依賴單一指標,現在許多新的Benchmark被提出,這些方法不只是比誰答得準,而是更重視模型的風險意識、回答邏輯與人類評價。

  1. Risk-aware Decision Making:
    模型能根據不確定性決定是否回答,以降低錯誤風險。
    若模型不確定答案,可以選擇拒答,而不是亂猜。
  2. LLM-as-a-Judge:讓更大型的模型擔任評審,評分按機率分佈做加權平均。
  3. Mean Opinion Score(MOS):由人類評審針對模型回答的可讀性、專業性進行人工打分。
  4. Simple QA:在題目中刻意設計陷阱問題,觀察模型是否會亂答。這種題型有倒扣機制,若模型亂猜會導致分數下降。
  5. Prometheus:專門評分的模型,又被叫Verifier驗證器,能根據任務類型自動評估模型輸出的正確性與可信度。

圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言