iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 20
1
AI & Data

人工智慧 vs.工人智慧系列 第 20

Day 20:分類器 與 分類氣

  • 分享至 

  • xImage
  •  

當我們已經將文字轉成數值,接下來就是要利用分類的計算方式來進行好壞文章的分類。

在說明我們使用的分類演算法前,先用一篇的章節來說明各分類器的優缺點,以便讓大家對於之後的演算法可以快速了解。要先說明一下,有關演算法的模型在這邊不會說明太多 (網路上太多相關資訊也都查得到),這裡只是快速講解之後我們會用到哪些的分類演算法;如果大家對每個演算法的數學描述有興趣,我們都會把相關說明的連結放上,可以直接連過去觀看。

在機器學習中分類演算法主要分為監督式學習(supervise learning)非監督式學習(unsupervise learning)演算法,因為我們之前已經有先做了人工標記,目的就是要套入監督式的分類計算,所以以下都會說明監督式分類演算法。

監督式學習

https://ithelp.ithome.com.tw/upload/images/20190921/20119726COHLFXDL7g.png
圖片來源 : 『機器學習:如何在多類別分類問題上使用用二元分類器進行分類

我們之後會使用到的三種監督式分類演算法分別是:
1. 支持向量機 (Support Vector Machine, SVM)
2. 貝氏分類器 (Naïve-Bayes)
3. 隨機森林(Random Forest)

為何選用這三個?這是之前自己當研究生時比較好的分類演算法,相關的 paper 說明可以看一下這兩篇:

https://ieeexplore.ieee.org/abstract/document/7860233

https://drive.google.com/viewerng/viewer?url=http://www.ijmlc.org/papers/158-C01020-R001.pdf

當然,你可以說現在有 deep learning 的方式可以自己學習,甚至在分類上的效能搞不好還更好,其實我也不反對這個理由,但我是打算把這議題留到明年再說 ?

其實另外還有一個更重要的原因,是因為 Weka 有寫好的分類演算法可以使用,又有許多可以改善分類演算法的模組 (例如:特徵選取) 可以使用,那就當然直接用囉 ?

在之後的文章內會特別說明各分類演算法的效能並互相比較,以及如何去改善正確率,那就留待之後說明了。

註1. https://academic.oup.com/bioinformatics/article/21/5/631/219898

如果想看更多分類器的介紹,可以參考
https://mropengate.blogspot.com/2015/05/ai-supervised-learning.html


免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。


上一篇
Day 19:文字 vs. 數字
下一篇
Day 21:分類氣 (一)
系列文
人工智慧 vs.工人智慧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言