於上一篇,我們懂得如何歸類故事類別,那麼今天將帶大家用機器學習模型對新故事進行分類!
我們開始執行吧~![]()
這邊跟上一篇一樣,我們將「Corpus」、「Preprocess」、「Bag of Words」連接上來,而檔案我們一樣使用「grimm-tales-selected」(格林童話)做模型訓練。

接著,連上「Logistic Regression(邏輯迴歸)」(詳細說明此模型,於第十一篇章,將數據集訓練後,暫時先放置一邊,等等預測新數據將會用到。

將「Bag of Words」接上「Test and Score」與另一個「Logistic Regression」看看分類的各項評估值(各項評估值的中文名稱以及初步解釋,於第十四篇章)。
評估值通常需要一點時間計算,跑完後,下方%數將會消失,即可檢視。

由AUC來看評估值,有一定的可性度。
補充說明 AUC數值意義
| AUC值 | 準確度 |
|---|---|
| 0.9以上 | 準確度較高 |
| 0.7~0.9 | 準確度中等 |
| 0.5~0.7 | 準確度較低 |
| 0.5以下 | 準確度不良 |

選取另一個檔案「andersen.tab」,進行預測,看看當中的三個故事會被歸類於哪一類。


從下圖看來,預測出來成果有一項不如預期,但這跟我們調整Logistic Regression其中的C值,還有前面文字預處理的部分也很有關聯,若有興趣者,可自行調整玩玩看,將會有不同效果喔~

今天就先到這裡囉,倒數三天~![]()
參考資料:
Orange