評估模型好壞,常用的參數包含準確率、召回率、F1分數、Hit Rate、MRR(Mean Reciprocal Rank)、AUC等指標。不同任務與資料型態會用不同評測方式,以下舉例說明如何實作 Embedding 模型評測、多模態模型評估,並說明模型挑選流程,特別是針對多模態情緒辨識應用。
模型類型 | 主要指標 | 評測建議 | 適用場景 |
---|---|---|---|
Embedding | Hit Rate, MRR, F1分數 | Top-K 命中、排名倒數、分類準確率 | 文字/語意檢索 |
多模態融合 | 融合準確率、一致性、MRR | Text/Face/Audio單模+融合評測 | 多模態情緒辨識/分析 |
Reranker | 命中率提升幅度、MRR | 各嵌入模型前後對照評估 | 增強檢索效果 |
框架可擴充性 | API支持、資料格式兼容性 | 靈活性與擴展測試 | 實驗或企業部署 |
維度一致:每個模型查詢與文件 embedding 維度一致即可,不需截斷。
語言支援:這四個模型都支援繁體中文。
資料型態:API 回傳 list of float,Python 端直接處理。
評測時分開統計各自指標,不要直接比較不同模型的 embedding 分數。
若有 API rate limit,建議先將 embedding 存檔再做評測。
針對 emotion_dataset_500_3.csv 測試集,分別用可接受繁體中文的模型 voyage-multilingual-2、voyage-multilingual-light-2、embed-multilingual-light-v3.0(Cohere)、Qwen3-Embedding-0.6B ...做測試
計算指標:
選擇最適合自己需求的模型,必須針對任務特性、評測指標、實測表現與資源限制做全方位考量,多模態情緒辨識尤需強調跨模態融合準確度與一致性,並透過 Top-K、MRR 指標搭配訓練與驗證資料反覆調整。