iT邦幫忙

2022 iThome 鐵人賽

DAY 14
0
AI & Data

一同來挖掘 0 程式的Orange!系列 第 14

〔Day14〕機器學習的模型評估-Logistic Regression、Random Forest、Tree

  • 分享至 

  • xImage
  •  

終於到了實作天,今天將會教導大家如何評估模型,準備好我們就開始囉~/images/emoticon/emoticon69.gif

匯檔、建模型

這次我們將用回鳶尾花數據集來呈現,匯入File後,先用個簡單的分類方法訓練模型,那就是在上上篇為大家科普的邏輯迴歸(Logistic Regression)啦~

而為了避免過度擬合(overfitting),我們會用訓練集建立模型,接著用測試集測試此模型的表現。

評估

我希望以多次重複這個動作來平均準確率,所以將會用到Test & Score這個組件來看其成效。
(下一張圖會有更詳盡地解釋~)

補充說明 : overfitting
當模型在樣本數據上訓練的時間過長,抑或是過於複雜,它會開始學習數據集中的“noise”或不相關的訊息。若模型記住了這個噪聲,並與訓練集擬合得太緊密時,模型則會變得“overfitted”,且無法很好地應用到新數據,而它將無法執行其預期的分類或預測任務。

https://ithelp.ithome.com.tw/upload/images/20220928/20151063w24Q91bJSm.png

打開Test and Score左上角有個Cross validation(交叉驗證)的選項,我們就是用它來做到多次重複動作的行為,從下方可看到我是用十折交叉驗證,這十折的分配是用九份數據建模一份數據預測,而每次使用不同的子集來進行交叉驗證,如此地重複這個動作九次以上。

https://ithelp.ithome.com.tw/upload/images/20220928/20151063TNm5bebYkb.png

驗證結果,有以下幾項:

  • AUC : Area Under the Curve,簡單來說,是判斷預測模型優劣的標準
  • CA : Capability of Accuracy,製程準確度,指的是被正確分類的比例
  • F1 :衡量二分類模型精確度的指標,它同時兼顧分類模型的精確率和召回率
  • Precision :精確度,在相同情況下,兩次或兩次以上的測量數據的一致性
  • Recall :召回率,在實際情形為正向的狀況下,預測「能召回多少」實際正向的答案
    這些如果聽不太懂沒關係,我們這次主要看CA而已!以下顯示準確率是96.7%,那麼剩下的3.3%錯誤又在何處呢?

https://ithelp.ithome.com.tw/upload/images/20220928/20151063hfIqkTnO62.png

我們可以連接混淆矩陣,看到紅色圈起處,就是被誤判的數據數。

https://ithelp.ithome.com.tw/upload/images/20220928/20151063qRr1NAjXR4.png

剛剛誤判的數據,我們將連接Data Table查看,還用Scatter Plot視覺化檢視。

https://i.imgur.com/zyPPWeu.gif

當然,我們也可以接看看不同模型的效果,以下範例我用了Random Forest和Tree來試,大家有興趣的話,也可以嘗試自己動手操作看看後續步驟拉~

https://i.imgur.com/PO6MWKp.gif

今天補充的知識,與實作好像都比之前多,看與做到這邊的你們辛苦啦,明天繼續加油!!!/images/emoticon/emoticon08.gif

參考資料:
F1分數
Orange
Overfitting
精密度與準確度
如何辨別機器學習模型的好壞?秒懂Confusion Matrix


上一篇
〔Day13〕隨機森林(Random Forest)的概念
下一篇
〔Day15〕數據也可以降維?-MDS
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言