〔Day27〕用線性迴歸預測童話故事的類別-Logistic Regression

2022 iThome 鐵人賽

DAY 27

AI & Data

一同來挖掘 0 程式的Orange!系列第 27 篇

14th鐵人賽 orange 數據分析機器學習文本分類

Sin

團隊花栗鼠與她的朋友們

2022-10-12 22:38:15

1843 瀏覽

分享至

於上一篇，我們懂得如何歸類故事類別，那麼今天將帶大家用機器學習模型對新故事進行分類!
我們開始執行吧~

匯檔→預處理→增加文字轉換成數值之屬性

這邊跟上一篇一樣，我們將「Corpus」、「Preprocess」、「Bag of Words」連接上來，而檔案我們一樣使用「grimm-tales-selected」(格林童話)做模型訓練。

模型訓練&評估

接著，連上「Logistic Regression(邏輯迴歸)」(詳細說明此模型，於第十一篇章，將數據集訓練後，暫時先放置一邊，等等預測新數據將會用到。

將「Bag of Words」接上「Test and Score」與另一個「Logistic Regression」看看分類的各項評估值(各項評估值的中文名稱以及初步解釋，於第十四篇章)。
評估值通常需要一點時間計算，跑完後，下方%數將會消失，即可檢視。

由AUC來看評估值，有一定的可性度。

補充說明 AUC數值意義

AUC值	準確度
0.9以上	準確度較高
0.7~0.9	準確度中等
0.5~0.7	準確度較低
0.5以下	準確度不良

預測起來!

選取另一個檔案「andersen.tab」，進行預測，看看當中的三個故事會被歸類於哪一類。

從下圖看來，預測出來成果有一項不如預期，但這跟我們調整Logistic Regression其中的C值，還有前面文字預處理的部分也很有關聯，若有興趣者，可自行調整玩玩看，將會有不同效果喔~

今天就先到這裡囉，倒數三天~

參考資料:
Orange

〔Day26〕看看Orange歸類文本之效果

〔Day28〕看看Orange將故事或文章分類的小技巧吧!

系列文

一同來挖掘 0 程式的Orange! 共 30 篇

RSS系列文訂閱系列文

11 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

一同來挖掘 0 程式的Orange!系列 第 27 篇