上一篇我們使用『線性迴歸』(Linear Regression)建立『汽車價格估價』模型,但是,還沒有看結果,我們這一篇就來看看預測的效果如何?
將實驗重新開啟,點選『Score Model』功能,按滑鼠右鍵,選擇『Scored Datasets』--> 『Visualize』,觀看估算結果,如下圖:
圖. 觀看估算結果
圖. 估算結果,Price 欄位是實際價格, 『Scored Labels』是估算價格
圖. 觀看執行結果
點選『Evaluate Model』功能,按滑鼠右鍵,選擇『Evaluation Results』--> 『Visualize』,觀看評估結果,如下圖:
圖. 模型評估結果
由於是預測價格,不是分類,通常以估計值與實際值的誤差來衡量績效,上圖提供很多指標,一般而言會看兩個數字:
均方誤差(Root Mean Squared Error, RMSE),MSE公式如下,而 RMSE 就是它的平方根,它是『預測值』與『實際值』之差的平方和,愈小表示模型愈準確。但是,RMSE 是相對性指標,必須與其他模型比較,才能凸顯出模型的優劣。
決定係數(coefficient of determination, R2):不像『均方誤差』是一個數字,必須與其他模型作比較,才有意義。決定係數越接近1,表示被迴歸模型解釋的能力越大,效能越好,公式如下:
圖. 決定係數(coefficient of determination, R2)公式
如圖,筆者取三個不同的特徵數,觀察決定係數的變化:
特徵 | 決定係數 |
---|---|
全部25個 | 0.881692 |
7個 | 0.910392 |
2個 | 0.761252 |
相對於我們使用資料集全部的欄位來預測,使用7個特徵來預測,決定係數反而比較高,表示特徵之間並不獨立,才會造成這樣的結果,另外,我們使用2個特徵來預測,決定係數又太低了,這引發了一個問題,我們應該如何選擇最佳的特徵數? 又要選擇哪些特徵呢? 降維(Dimensionality reduction)技術提供這個問題的解答,我們在後續的文章再來探討這個技術及相關的演算法。
模型已經訓練好了,我們就可以將最終的模型佈署上線,提供『汽車估價』的服務,ML Studio 提供 Web Services,讓我們很容易的將服務上網,之後使用者直接在瀏覽器輸入特徵值,就可以馬上得到估算值,如下圖。下一篇就來探討相關的執行程序與一些小技巧。
圖. 輸入特徵值
圖. 預測結果