觀察一下,下圖:
在day15我們談到做迴歸的時候,就是找到一條曲線(橘線),可以代表物件二者關係的趨勢,這一條直線要怎麼找?先思考一下,觀察一下圖片,我們待會再解答。
看到了嗎?其實我們就是在找一條橘線,而這線與藍點的距離為最小,最成符合趨勢。這距離就是實際值y 藍點與預測值y’橘線的距離。也就是我們在day4說的誤差函數。因為誤差有正有負,所以統一取平方讓它永遠為正數。這就是均方誤差MSE的由來,還有一種是Mean Absolute Error (MAE),取的是距離的絕對值。
今天我們要介紹的幾種效能評估指標:
R^2
Mean Square Error (MSE)
Confusion Matrix
precision / recall /f1
MSE = \frac{1}{N} \sum (y - y’)^2
y - actual value ,y’- predict value
用途:regression
- Actual :實際值,Predict:預測值
- T:true,F:false
- TN:實際是true預測也是true,TP:實際是true預測也是true,
- FN:實際是true預測是false,FP:實際是false預測是true
precision = \frac{TP} {TP + FP}
口訣:真實是true,希望它就是true
recall :\frac{TP}{TP + FN}
f1 = \frac{ 2 \times precision \times recall }{ precision + recall}
做作ML的時候,我們要看模型演算法,計算出來的結果與真實的target存在多少差異問題,這時候就必須要做效能評估。還記得ML的流程嗎?[昨天]我們實際在kaggle的例子上,最後一行看出randomforest得效能達到99%,算是很棒,對於花朵的分類幾乎百分百正確。讓我們在回顧下ML的流程:
data - 資料前處理ETL - 資料正規化- 載入模型 -模型配飾 - 模型預測 - 模型效能評估
這系列結束後,我將繼續挑戰IT鐵人30日:
佛心分享 : it 考照之路
主題:從摸索7個月到下定決心訂下3週後考試:自學取得PMP 3AT 執照