〔Day28〕看看Orange將故事或文章分類的小技巧吧! - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 28

1

AI & Data

一同來挖掘 0 程式的Orange!系列第 28 篇

〔Day28〕看看Orange將故事或文章分類的小技巧吧!

14th鐵人賽機器學習 orange 數據分析文本分類

團隊花栗鼠與她的朋友們

2022-10-13 23:33:02

1472 瀏覽

分享至

倒數兩天啦~今天要讓大家自己找檔案試試前幾集以故事為主題的教學，那就直接來囉!

選檔

這次大家可以選幾個類別的故事或文章，接著將它們用txt或tab檔存於檔案中，可以先將它們分好類別放置於一個個資料夾中，最後再將這些資料夾整合成一個資料夾!

匯檔→文字預處理→文字轉數值

除了選檔外，其他動作相信有看前幾集的你，一定很熟練了，若不太清楚的話，可至第25篇章及第26篇章，有詳細說明!
你也可以外接一個「Corpus Viewer」，檢視看看是否讀取成功。

刪除多於字

這步之前有提過，但真的很重要所以再次跟大家說說此流程。
連接「Word Cloud」，將會看看許多段文字顯現，左側是依照出現的頻率去排序，右側大小也一樣是按照比重。
這邊大家可以看看裡面，有沒有不重要的文字訊息佔得比例很重，若有那可以將他們分段打在記事本上，接著輸入至「Preprocess Text」中。(第25篇章有更詳盡的解說~)

故事分群效果

從影片中可看出我的故事被分成了三至四類，當被分成四群時，C3和C4群相當的接近，但裡面內容狗和熊的故事各佔一半，而C1與C2的分類相當正確。
以這次分類來看，可以得出一個小結論，故事或文章內容若是有許多無關主題的文字重疊，沒有預處理好，用這個方法，將會影響後續分類上的誤判。

套模型看預測

這個步驟是供大家使用模型看看自己的數據在那上面的效果如何，若你的模型評估很高分者，可以試著連接新的文章，看看其判斷是否正確。(第27篇章有更詳盡的解說~)

今天就到此結束囉，這次留給大家動手操作的部分比較多，希望大家可以因此而加深印象，後續自己摸索就會越玩越上手!

參考資料:
Orange
故事365

〔Day27〕用線性迴歸預測童話故事的類別-Logistic Regression

〔Day29〕所有Orange初始教學片中的數據資源包，一次交給你!

系列文

一同來挖掘 0 程式的Orange! 共 30 篇

目錄

RSS系列文訂閱系列文

11 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙