上一篇想辦法去改善分類演算法但似乎改善幅度不高,正所謂山不轉路轉,如果分類器改善不了,那何不來改善一下資料面的問題呢? 針對資料的部分我們會用以下三種方式重新處...
一. BOW BOW的全名為Bag-of-words,中文是'一袋文字',意思就是將詞都丟進一個袋子裡,所以又稱'詞袋'模型,假設有n個句子(或文章),總共有m...
在前面一直提到我們得到的 PTT 文章都是文字呈現,那怎麼讓電腦也看得懂呢?因為最終的計算是個兩類別的分類問題,所以這邊我們把所有的文章轉成數值,也就是每一篇文...
一. 序 這篇主要用python實作TFIDF,來表示文本的方式 二. 載入套件與文本 主要利用jieba斷詞 import jieba import ma...