經過了前兩天補充的小知識,今天我們就來用Orange做個預測看看唄!
這次用到的數據是水果與蔬菜的訓練集,需要的人可以直接點擊超連結進入,全部複製後,將其貼於word或記事本上,另存新檔命名為「XXX.tab」(XXX的部分可自行輸入)。
存完後,再來到Orange介面將它應用於File中,可以用Data Table檢查一下檔案是否正確。
檔案中,總共有九個屬性,在這次預測中,我希望電腦能依照這些屬性,來判斷數據是蔬菜還是水果。
在我們開始預測前,要先來了解一下,其中哪幾項屬性,在電腦判斷時,為重要的依據,固然我們就要拉出Tree來看看了!
從Tree Viewer,我們可以看出卡路里、維他命A和蛋白質可能是預測決定性的重要因素。
我們今天一樣使用Google 的試算表來建立檔案並用連結匯入,然而檔案的屬性要依照原來水果蔬菜檔的格式輸入,這樣電腦才能讀取識別喔~
記得要將File中的Type與Role用成和原始訓練集的屬性一樣嘿!!!
把我們要預測的檔案跟Predictions(預測)組件連起來,並也將上面的模組Tree跟Predictions接起來,接下來就是magic時刻了~
打開Predictions,就會看到決策樹所預測而出的類別,從下圖可以看出,它將三個數據都列為是水果呢!
先將Logistic Regression組件與File和Predictions接起來,再打開來看預測結果。
最終,因為邏輯迴歸與決策樹的判斷依據不同,所以出現了一個數據為不相同的。
但在這裡要揭曉一下,這次是邏輯迴歸預測才是正確的喔!
好哩~今天就學習到這啦!在日後,還會教導大家如何評估模型,敬請期待,bye~
參考資料:
Orange