[Day 17] Classification(下)

2019 iT 邦幫忙鐵人賽

DAY 17

AI & Data

跟著Google學ML系列第 17 篇

2019鐵人賽 machine learning

Joseph-bug

2018-10-17 15:50:17

5051 瀏覽

分享至

Ref.: Classification

昨天講了Threshold、TP/TN/FP/FN、Accuracy、Precision、Recall，忘了趕快回去看。
現在開始講今天的內容囉。

ROC and AUC

先把圖貼上來！

靠這張圖，來定義這邊會用到的兩個rate

True Positive Rate (TPR) = TP / (TP+FN) = Recall
False Positive Rate (FPR) = FP / (FP+TN)

**ROC (receiver operating characteristic curve)**就是TPR與FPR構成的圖：
ROC

還記得昨天按照Probability排列的圖嗎？如果Threshold = 0，通通Positive，看看TPR和FPR會怎麼樣吧~。

**AUC (Area Under the ROC Curve)**則是ROC curve下的面積，AUC可以視為所有可能的Threshold的效率評估方法。像上圖中，所有點按照Prediction排列以後，隨便選一個綠點跟隨便選一個紅點，AUC可以代表綠點在紅點右邊的可能性。

看的出來AUC不會被乘以常數(Scale)而改變，也不會因為Threshold增加減少而改變。也因此在calibrated probability outputs時AUC不會有影響。想要改變Threshold去降低False-Positive時，AUC也不是個有用的metrics。

Prediction Bias

這邊所指的Prediction bias跟線性函數的b不一樣。這邊是指prediction bias = 平均預測值-實際值，平均預測20%是病毒，實際上只有1%是病毒，Predication bias = 19%。

會有這個偏差是因為：

不完整的Feature set
有雜訊(受干擾)的data set
Machine learning過程有問題(Buggy pipeline)
Training sample本身就有bias
太過強或太過早的Regularization

這邊指的pipeline應該是指 Machine learning pipeline, 資料在這裡
Machine learning pipelines are cyclical and iterative as every step is repeated to continuously improve the accuracy of the model and achieve a successful algorithm.

或許可以用一些後處理，像是calibration layer去降低bias，但這種方法有時候是治標不治本，而且也需要時常因為各種狀況去更新calibration layer。

Bucketing and Prediction Bias

當然，看Prediction Bias牽扯到兩個數字的平均的差，所以我們在檢查Prediction bias時不會只看單一case，而是會觀察當原本label平均是多少時，預測值是多少。

有點饒口，更進一步說是，把足夠多的資料Grouping一起，每個Group去觀察平均值與預測值。
Group的方法可以依照target prediction線性分群，也可以用quantiles去分群

之後就可以畫出Google看到的圖：
Plot
其中每個點有1000筆data，x軸代表model對這1000筆資料的平均預測值；y軸代表這1000筆資料的實際平均值。

兩個值都是取過對數log處理的喔！

超出範圍太多的點，代表那1000筆資料可能有些問題，像是training set代表不夠充分、或是有些subset雜訊太多、又有可能是太早做regularize(試試看減少lambda會不會有改善)。

OK，Classification就到這邊為止。

[Day 16] Classification(上)

[Day 18] Regularization - Sparsity

系列文

跟著Google學ML 共 30 篇

RSS系列文訂閱系列文

30 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

跟著Google學ML系列 第 17 篇