當我們已經將文字轉成數值,接下來就是要利用分類的計算方式來進行好壞文章的分類。
在說明我們使用的分類演算法前,先用一篇的章節來說明各分類器的優缺點,以便讓大家對於之後的演算法可以快速了解。要先說明一下,有關演算法的模型在這邊不會說明太多 (網路上太多相關資訊也都查得到),這裡只是快速講解之後我們會用到哪些的分類演算法;如果大家對每個演算法的數學描述有興趣,我們都會把相關說明的連結放上,可以直接連過去觀看。
在機器學習中分類演算法主要分為監督式學習(supervise learning)與非監督式學習(unsupervise learning)演算法,因為我們之前已經有先做了人工標記,目的就是要套入監督式的分類計算,所以以下都會說明監督式分類演算法。
監督式學習
圖片來源 : 『機器學習:如何在多類別分類問題上使用用二元分類器進行分類』
我們之後會使用到的三種監督式分類演算法分別是:
1. 支持向量機 (Support Vector Machine, SVM)
2. 貝氏分類器 (Naïve-Bayes)
3. 隨機森林(Random Forest)
為何選用這三個?這是之前自己當研究生時比較好的分類演算法,相關的 paper 說明可以看一下這兩篇:
https://ieeexplore.ieee.org/abstract/document/7860233
https://drive.google.com/viewerng/viewer?url=http://www.ijmlc.org/papers/158-C01020-R001.pdf
當然,你可以說現在有 deep learning 的方式可以自己學習,甚至在分類上的效能搞不好還更好,其實我也不反對這個理由,但我是打算把這議題留到明年再說 ?
其實另外還有一個更重要的原因,是因為 Weka 有寫好的分類演算法可以使用,又有許多可以改善分類演算法的模組 (例如:特徵選取) 可以使用,那就當然直接用囉 ?
在之後的文章內會特別說明各分類演算法的效能並互相比較,以及如何去改善正確率,那就留待之後說明了。
註1. https://academic.oup.com/bioinformatics/article/21/5/631/219898
如果想看更多分類器的介紹,可以參考
https://mropengate.blogspot.com/2015/05/ai-supervised-learning.html
免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。