【AI筆記】30天從論文入門到 Pytorch 實戰：模型評估指標與應用 Day 9

2024 iThome 鐵人賽

DAY 10

AI/ ML & Data

【AI筆記】30天從論文入門到 Pytorch 實戰系列第 10 篇

16th鐵人賽

fan84sunny

2024-08-12 21:17:09

737 瀏覽

分享至

雖然用人工評估結果是有效又準確度高的方法，但費時又費力。
所以模型評估指標是衡量模型預測能力的重要工具。

以下任務常見的評估指標包括：

分類任務

二分類

準確率 (Accuracy)：表示模型預測正確的比例。適用於資料集平衡的情況。
精確率 (Precision)：表示被預測為正類的樣本中實際為正類的比例。適用於更在意預測結果的精確性的情況。
召回率 (Recall)：表示實際為正類的樣本中被正確預測為正類的比例。適用於更在意捕捉所有正類樣本的情況。
F1分數 (F1 Score)：精確率和召回率的調和平均數。適用於需要平衡精確率和召回率的情況。
ROC-AUC (Receiver Operating Characteristic - Area Under Curve)：ROC曲線下的面積，表示模型區分正負類的能力。適用於評估二分類模型的整體性能。
PR-AUC (Precision-Recall Area Under Curve)：精確率-召回率曲線下的面積，適用於不平衡資料集的情況

多標籤分類

準確率 (Accuracy)
精確率 (Precision)
召回率 (Recall)
F1值 (F1 Score)
Hamming Loss：計算預測結果與真實結果不一致的標籤比例。

迴歸任務

均方誤差 (Mean Squared Error, MSE)：衡量預測值與真實值之間的平均平方誤差。分數越低，表示模型的預測越準確。
均方根誤差 (Root Mean Squared Error, RMSE)：MSE的平方根，提供了與原始資料相同單位的誤差度量。分數越低，表示模型的預測越準確。
平均絕對誤差 (Mean Absolute Error, MAE)：衡量預測值與真實值之間的平均絕對誤差。分數越低，表示模型的預測越準確。
R平方 (R-squared, R2)：衡量模型解釋變異的比例，分數越接近1，表示模型的解釋能力越強。
調整後的R平方 (Adjusted R-squared)：考慮了模型中變量數量的R平方，適用於多變量迴歸模型。
平均絕對百分比誤差 (Mean Absolute Percentage Error, MAPE)：衡量預測值與真實值之間的平均百分比誤差。分數越低，表示模型的預測越準確。

物體偵測（Object Detection）

精度（Precision）：衡量模型正確檢測到的物體數量佔所有檢測結果的比例。
召回率（Recall）：衡量模型檢測到的物體數量佔所有實際存在物體的比例。
F1分數（F1 Score）：精度和召回率的調和平均數，用於綜合評估模型的性能。
平均精度（mAP, Mean Average Precision）：在不同的閾值下計算的平均精度，用於衡量模型在多個類別上的整體性能。
交並比（IoU, Intersection over Union）：衡量檢測框與真實框之間的重疊程度。IoU越高，表示檢測結果越準確。

生成式任務

圖像生成（Image Synthesis）

Inception Score (IS)：衡量生成圖像的品質和多樣性。分數越高，表示生成圖像的品質和多樣性越好。
Fréchet Inception Distance (FID)：衡量生成圖像與真實圖像之間的分布距離。分數越低，表示生成圖像與真實圖像越相似。
Structural Similarity Index (SSIM)：衡量生成圖像與真實圖像之間的結構相似性。分數越高，表示生成圖像與真實圖像的結構越相似。
峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)：衡量生成圖像的品質，特別是與真實圖像的差異。分數越高，表示生成圖像的品質越好。
均方誤差 (Mean Squared Error, MSE)：衡量生成圖像與真實圖像之間的平均平方誤差。分數越低，表示生成圖像與真實圖像之間的差異越小。

圖像修復（Image Inpainting）

均方誤差 (Mean Squared Error, MSE)
峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR)
結構相似性指數 (Structural Similarity Index, SSIM)
感知損失 (Perceptual Loss)：基於深度學習模型，衡量生成圖像與真實圖像之間的感知差異。
LPIPS (Learned Perceptual Image Patch Similarity)：衡量生成圖像與真實圖像之間的感知相似性，基於深度學習模型進行計算。

文本到圖像生成（Text-to-Image Generation）

Inception Score (IS)
Fréchet Inception Distance (FID)
CLIPScore：基於CLIP模型，衡量生成圖像與文本描述之間的語義相似度。分數越高，表示生成圖像與文本描述的匹配度越高。

也有出現一些新的指標，但目前還沒被廣泛使用。https://github.com/VinAIResearch/tise-toolbox

Text Relevance：衡量生成圖像與文本描述的相關性。

Object Fidelity：衡量生成圖像中對象的真實性和一致性。

Semantic Object Accuracy (SOA)：衡量生成圖像中對象的語義準確性。

自然語言處理（NLP）

BLEU (Bilingual Evaluation Understudy)：主要用於機器翻譯，通過計算生成文本和參考文本之間的n-gram重合度來評估翻譯品質。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)：主要用於文本摘要，通過計算生成摘要和參考摘要之間的重合度來評估摘要品質。
METEOR (Metric for Evaluation of Translation with Explicit ORdering)：主要用於機器翻譯，考慮了詞形變化和同義詞，通過計算生成文本和參考文本之間的匹配度來評估翻譯品質。
CIDEr (Consensus-based Image Description Evaluation)：主要用於圖像描述，通過計算生成描述和參考描述之間的相似度來評估描述品質。
BERTScore：基於BERT模型，通過計算生成文本和參考文本之間的語義相似度來評估文本品質。

自然語言理解（NLU）

GLUE Benchmark：GLUE（General Language Understanding Evaluation）是一個綜合評估基準，包含九個不同的語言理解任務，用於評估模型在多種語言理解任務上的性能。
SuperGLUE Benchmark：SuperGLUE是GLUE的改進版本，包含更具挑戰性的任務和更高的評估標準。
Accuracy (準確率)
F1 Score
Perplexity (困惑度)：主要用於語言模型，衡量模型預測下一個詞的困難程度。
Cross-Entropy (交叉熵)：衡量模型預測分佈與真實分佈之間的差異，越小越好。

圖像到文本生成（Image-to-Text Generation）

BLEU (Bilingual Evaluation Understudy)：衡量生成文本與參考文本之間的n-gram重合度，常用於機器翻譯和圖像描述。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)：衡量生成文本與參考文本之間的重合度，常用於文本摘要和圖像描述。
METEOR (Metric for Evaluation of Translation with Explicit ORdering)：考慮詞形變化和同義詞，衡量生成文本與參考文本之間的匹配度。
CIDEr (Consensus-based Image Description Evaluation)：專門用於圖像描述，衡量生成描述與參考描述之間的相似度。
SPICE (Semantic Propositional Image Caption Evaluation)：基於圖像描述的語義結構，衡量生成描述與參考描述之間的語義相似度。
BERTScore：基於BERT模型，衡量生成文本與參考文本之間的語義相似度。

圖像到3D（Image-to-3D Generation）

結構相似性指數（SSIM）：用於衡量生成3D模型與參考模型之間的結構相似性。SSIM越高，表示生成模型越接近參考模型。
均方根誤差（RMSE）：用於衡量生成3D模型與參考模型之間的差異。RMSE越低，表示生成模型越準確。
峰值信噪比（PSNR）：用於衡量生成3D模型的品質。PSNR越高，表示生成模型的品質越好。
Dice相似性係數（Dice Similarity Coefficient）：用於衡量生成3D模型與參考模型之間的重疊程度。Dice係數越高，表示生成模型與參考模型的重疊程度越高。
Hausdorff 距離（Hausdorff Distance）：用於衡量生成3D模型與參考模型之間的最大距離。Hausdorff距離越小，表示生成模型越接近參考模型。

文本搜索（Text Search）任務

精確率（Precision）
召回率（Recall）
F1值（F1 Score）
平均排名（Mean Reciprocal Rank, MRR）：衡量第一個相關結果在返回結果中的平均排名。分數越高，表示相關結果出現在更前面的位置。
平均精確率（Mean Average Precision, MAP）：衡量所有查詢的平均精確率，綜合考慮了多個查詢的結果。
歸一化折損累積增益（Normalized Discounted Cumulative Gain, NDCG）：衡量返回結果的相關性和排序，考慮了結果的排名位置。

文本轉語音（TTS）

平均意見分數（MOS）：這是一種主觀評估方法，通過收集聽眾對生成語音的反饋來評估語音的自然度和可理解性。
字錯誤率（WER）：這是一種客觀評估方法，用於衡量生成語音與參考文本之間的差異。WER越低，表示生成語音越準確。
梅爾倒譜失真（MCD）：這是一種用於衡量生成語音與參考語音之間的頻譜差異的指標。MCD越低，表示生成語音越接近參考語音。
信噪比（SNR）：這是一種用於衡量生成語音中信號與噪聲比例的指標。SNR越高，表示生成語音的品質越好。
音素錯誤率（PER）：這是一種用於衡量生成語音中音素錯誤的指標。PER越低，表示生成語音越準確。

音樂相關任務

可以在以下的論文查看：https://arxiv.org/pdf/2308.13736

以下為補充:
評估聲音品質（非ML相關）
特別是在音頻和聲學領域，這些指標在音頻和聲學領域中非常重要，因為它們能夠幫助工程師和研究人員評估和改進音頻設備和聲學產品的性能。

平均尖峰值差（APD）：這是一種用來評估音頻信號中尖峰值變化的指標，通常用於分析音頻信號的動態範圍和瞬態響應。
平均聲品質評估（ASP）：這是一種主觀評估方法，通過收集聽眾對音頻信號的反饋來評估聲音品質。這種方法通常用於音頻設備和聲學產品的測試。
聲音品質評估（SQA）：這是一種綜合評估方法，結合了主觀和客觀的評估指標來評估聲音品質。這種方法通常用於音頻設備、聲學產品和語音通信系統的測試。
聲音品質指數（SQI）：這是一種量化聲音品質的指標，通常用於評估語音通信系統和音頻設備的性能。
聲音品質評估-短時（SQA-ST）：這是一種專門用於評估短時間內聲音品質的指標，通常用於分析短時音頻信號的品質。
聲音品質評估-長時（SQA-LT）：這是一種專門用於評估長時間內聲音品質的指標，通常用於分析長時音頻信號的品質。

結論

評估方法大約可分為三大類：主觀評估、客觀評估和綜合評估。

以下是文章的主要結論：
主觀評估：依賴於人類的反饋，儘管資源密集且可重複性差，但仍是不可或缺的部分。
客觀評估：使用計算技術來分析，提供量化的質量指標，但解釋性有待提高。
綜合評估：結合主觀和客觀方法，提供更全面的評估，但仍需解決解釋性和實驗可重複性之間的平衡問題。
未來挑戰：包括建立標準、縮小主觀與客觀評估之間的差距、提高客觀指標的解釋性以及有效評估創造力。