iT邦幫忙

2022 iThome 鐵人賽

DAY 27
0
AI & Data

一同來挖掘 0 程式的Orange!系列 第 27

〔Day27〕用線性迴歸預測童話故事的類別-Logistic Regression

  • 分享至 

  • xImage
  •  

上一篇,我們懂得如何歸類故事類別,那麼今天將帶大家用機器學習模型對新故事進行分類!
我們開始執行吧~/images/emoticon/emoticon42.gif

匯檔→預處理→增加文字轉換成數值之屬性

這邊跟上一篇一樣,我們將「Corpus」、「Preprocess」、「Bag of Words」連接上來,而檔案我們一樣使用「grimm-tales-selected」(格林童話)做模型訓練。

https://ithelp.ithome.com.tw/upload/images/20221012/20151063PSfz3GAkGQ.png

模型訓練&評估

接著,連上「Logistic Regression(邏輯迴歸)」(詳細說明此模型,於第十一篇章,將數據集訓練後,暫時先放置一邊,等等預測新數據將會用到。

https://ithelp.ithome.com.tw/upload/images/20221012/20151063rbFORG1d8j.png

將「Bag of Words」接上「Test and Score」與另一個「Logistic Regression」看看分類的各項評估值(各項評估值的中文名稱以及初步解釋,於第十四篇章)。
評估值通常需要一點時間計算,跑完後,下方%數將會消失,即可檢視。

https://ithelp.ithome.com.tw/upload/images/20221012/20151063gPaLkUwFLA.png

AUC來看評估值,有一定的可性度。

補充說明 AUC數值意義

AUC值 準確度
0.9以上 準確度較高
0.7~0.9 準確度中等
0.5~0.7 準確度較低
0.5以下 準確度不良

https://ithelp.ithome.com.tw/upload/images/20221012/20151063XlIQ8bUm0Y.png

預測起來!

選取另一個檔案「andersen.tab」,進行預測,看看當中的三個故事會被歸類於哪一類。

https://ithelp.ithome.com.tw/upload/images/20221012/20151063c0WYFSHNtx.png

https://ithelp.ithome.com.tw/upload/images/20221012/20151063LMtfIhLkb5.png

從下圖看來,預測出來成果有一項不如預期,但這跟我們調整Logistic Regression其中的C值,還有前面文字預處理的部分也很有關聯,若有興趣者,可自行調整玩玩看,將會有不同效果喔~

https://ithelp.ithome.com.tw/upload/images/20221012/20151063LOCmH2StmR.png

今天就先到這裡囉,倒數三天~/images/emoticon/emoticon07.gif

參考資料:
Orange


上一篇
〔Day26〕看看Orange歸類文本之效果
下一篇
〔Day28〕看看Orange將故事或文章分類的小技巧吧!
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言