為什麼要談評估?
公共榜單不能替你解題;你的資料分佈、風格、風險承受度都不同。
評估的正確打開方式
任務對齊:把需求拆成可檢核指標
正確性(有憑有據嗎)
完整性(題目的面向有覆蓋嗎)
可讀性(一讀就懂嗎)
一致性(重跑是否穩定)
創造性 vs. 一致性:文案要多樣,合規要穩定——指標不同
系統性評估:多樣測例、對照組、人工抽查與標註準則
上線後監測:模型漂移是常態;資料變,表現就會變
常見誤解
「基準分高=我的任務也高」→ 未必;要看情境配適
「一次調好就結案」→ 環境在動,你也要動
小結
先定義「什麼叫做好」,再測。情境導向評估,才有意義。