上一篇我們提到,當我們想判斷評估模型回答得好不好時,可以利用Benchmark來觀察模型獲得的Evaluation score。不過要注意的是,分數雖然是量化表現的依據,但我們不能過度依賴或盲目信任它!
為什麼不可過度相信Evaluation score?
雖然分數能幫助我們快速比較不同模型的表現,但它不一定代表真正的理解能力。
這裡有個重要原則叫Goodhart’s Law(古德哈特定律):
當一個衡量標準變成了目標,它就不再是好的衡量標準。
這是什麼意思呢,就是如果我們一味追求讓分數變漂亮,模型反而可能學會迎合測驗而非真正理解問題。
這也是生成式AI常見的幻覺(Hallucination)現象成因之一。
有時候,模型為了讓答案看起來完整,會自信地生成錯誤內容,這類模型在評測上可能得分不錯,但實際上只是表面聰明、內容卻錯得離譜。
所以高分並不代表可靠,Evaluation score應該是參考依據,而不是最終答案!
為了避免過度依賴單一指標,現在許多新的Benchmark被提出,這些方法不只是比誰答得準,而是更重視模型的風險意識、回答邏輯與人類評價。