Day 03：ML Studio 第一個實驗的執行結果及模型評估

2019 iT 邦幫忙鐵人賽

DAY 3

Everything on Azure

Azure AI 向前衝系列第 3 篇

2019鐵人賽 ai data science with azure azure data services

I code so I am

2018-10-17 08:58:52

13969 瀏覽

分享至

執行結果說明

上一篇我們使用『線性迴歸』(Linear Regression)建立『汽車價格估價』模型，但是，還沒有看結果，我們這一篇就來看看預測的效果如何?

將實驗重新開啟，點選『Score Model』功能，按滑鼠右鍵，選擇『Scored Datasets』--> 『Visualize』，觀看估算結果，如下圖：

圖. 觀看估算結果

圖. 估算結果，Price 欄位是實際價格，『Scored Labels』是估算價格

圖. 觀看執行結果

點選『Evaluate Model』功能，按滑鼠右鍵，選擇『Evaluation Results』--> 『Visualize』，觀看評估結果，如下圖：

圖. 模型評估結果

由於是預測價格，不是分類，通常以估計值與實際值的誤差來衡量績效，上圖提供很多指標，一般而言會看兩個數字：

均方誤差(Root Mean Squared Error, RMSE)，MSE公式如下，而 RMSE 就是它的平方根，它是『預測值』與『實際值』之差的平方和，愈小表示模型愈準確。但是，RMSE 是相對性指標，必須與其他模型比較，才能凸顯出模型的優劣。
決定係數(coefficient of determination, R2)：不像『均方誤差』是一個數字，必須與其他模型作比較，才有意義。決定係數越接近1，表示被迴歸模型解釋的能力越大，效能越好，公式如下：

圖. 決定係數(coefficient of determination, R2)公式

實驗不同的特徵數預測

如圖，筆者取三個不同的特徵數，觀察決定係數的變化：

特徵	決定係數
全部25個	0.881692
7個	0.910392
2個	0.761252

相對於我們使用資料集全部的欄位來預測，使用7個特徵來預測，決定係數反而比較高，表示特徵之間並不獨立，才會造成這樣的結果，另外，我們使用2個特徵來預測，決定係數又太低了，這引發了一個問題，我們應該如何選擇最佳的特徵數? 又要選擇哪些特徵呢? 降維(Dimensionality reduction)技術提供這個問題的解答，我們在後續的文章再來探討這個技術及相關的演算法。