Day 22：分類氣 (二)

第 11 屆 iThome 鐵人賽

DAY 22

AI & Data

人工智慧 vs.工人智慧系列第 22 篇

11th鐵人賽分類器演算法

phelps

2019-09-23 07:45:02

4861 瀏覽

分享至

今天來講一下分類器評估的方式。

一般常見的評估法 (evaluation) 有蠻多資料可以參考，在這裡就是快速的說而已，並不會琢磨太多。主要要講解的會是我們採用什麼的評估方式來評估 PTT 文章分類的部分；之後計算結果的方式皆會採取這邊提到的評估法來進行。

分類演算法常見評估方式

在文字分類的題目部分有多種評估分類系統性能的標準。常用的評估標準：準確率(Precision)、召回率(Recall) 、F1-評測值(F1-measure)、微平均(Micro-average)和巨集平均(Macro-average)。另外也包含了ROC曲線 (Receiver operating characteristic curve) 、AUC (Area Under Curve)和多元相關(多元混淆矩陣和相對應驗證指標) [註 1]。

分類大概可以分成二元分類(binary case)和多元分類(multiclass case)，我們在前面有提到，用來分辨 PTT 文章的好壞我們把它視為是一個二元分類的問題。所以評估的部分也就是用二元分類來表示。所有的分類問題都可以先產生出一個稱為混淆矩陣(Confusion matrix)的東西，然後從這個矩陣在去算出一些成效指標 [註 2]。
在二元分類基本上就是分「有」和「沒有」、「正確」跟「錯誤」、「真」跟「假」、「正」和「負」(以下我們皆用「正」和「負」來代表)。下表是二元分類的混淆矩陣，True condition 就是你資料的答案，Predicted outcome 就是模型預測出來的結果。

混淆矩陣(Confusion matrix)

Positive就是「正確」；Negative就是「錯誤」。

True Positive (TP)「真陽性」：真實情況是「正」，預測為「正」的個數。
True Negative(TN)「真陰性」：真實情況是「負」，預測為「負」的個數。
False Positive (FP)「偽陽性」：真實情況是「負」，預測為「正」的個數。
False Negative(FN)「偽陰性」：真實情況是「正」，預測為「負」的個數。

通常講到這邏輯的都時候都會用醫師診斷某病人是否生病？這邊就不多說了，想了解更多可以參考這一篇：

https://medium.com/@chih.sheng.huang821/機器學習-統計方法-模型評估-驗證指標-b03825ff0814

如果大家還記得前一天提到的 Weka 分類計算評估方式。我們可以從下圖看到其實 Weka 已將把前面提到的評估法都算出來了，而且還是針對每一個類別都有各自的數值。

不過我們在這邊的計算不會用的這麼複雜，我們只要知道 “Correcrly Classified Instances” 這個數值 (也就是整體的 Accuracy) 即可。

所以之後在比較三個不同的分類演算法時，就會直接比較各自的 accuracy 數值當作最終的結果。

註1: https://www.sciencedirect.com/science/article/pii/S2210832718301546
註2: Sebastiani，F. Machine learning in automated text categorization [J]. ACM Comput. Surv. 34(1): 1–47.

免責聲明：本文章提到的股市指數與說明皆為他人撰寫文章內容，包括：選股條件，買入條件，賣出條件和風險控制參數，只適用於文章內的解釋與說明，此提示及建議內容僅供參考之用，並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略，亦不應視為投資建議。