Day 20：分類器與分類氣 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 11 屆 iThome 鐵人賽

DAY 20

1

AI & Data

人工智慧 vs.工人智慧系列第 20 篇

Day 20：分類器與分類氣

11th鐵人賽分類器監督式非監督式

2019-09-21 11:31:24

4680 瀏覽

分享至

當我們已經將文字轉成數值，接下來就是要利用分類的計算方式來進行好壞文章的分類。

在說明我們使用的分類演算法前，先用一篇的章節來說明各分類器的優缺點，以便讓大家對於之後的演算法可以快速了解。要先說明一下，有關演算法的模型在這邊不會說明太多 (網路上太多相關資訊也都查得到)，這裡只是快速講解之後我們會用到哪些的分類演算法；如果大家對每個演算法的數學描述有興趣，我們都會把相關說明的連結放上，可以直接連過去觀看。

在機器學習中分類演算法主要分為監督式學習(supervise learning)與非監督式學習(unsupervise learning)演算法，因為我們之前已經有先做了人工標記，目的就是要套入監督式的分類計算，所以以下都會說明監督式分類演算法。

監督式學習

圖片來源 : 『機器學習:如何在多類別分類問題上使用用二元分類器進行分類』

我們之後會使用到的三種監督式分類演算法分別是：
1. 支持向量機 (Support Vector Machine, SVM)
2. 貝氏分類器 (Naïve-Bayes)
3. 隨機森林（Random Forest)

為何選用這三個？這是之前自己當研究生時比較好的分類演算法，相關的 paper 說明可以看一下這兩篇：

https://ieeexplore.ieee.org/abstract/document/7860233

https://drive.google.com/viewerng/viewer?url=http://www.ijmlc.org/papers/158-C01020-R001.pdf

當然，你可以說現在有 deep learning 的方式可以自己學習，甚至在分類上的效能搞不好還更好，其實我也不反對這個理由，但我是打算把這議題留到明年再說 ?

其實另外還有一個更重要的原因，是因為 Weka 有寫好的分類演算法可以使用，又有許多可以改善分類演算法的模組 (例如：特徵選取) 可以使用，那就當然直接用囉 ?

在之後的文章內會特別說明各分類演算法的效能並互相比較，以及如何去改善正確率，那就留待之後說明了。

註1. https://academic.oup.com/bioinformatics/article/21/5/631/219898

如果想看更多分類器的介紹，可以參考
https://mropengate.blogspot.com/2015/05/ai-supervised-learning.html

免責聲明：本文章提到的股市指數與說明皆為他人撰寫文章內容，包括：選股條件，買入條件，賣出條件和風險控制參數，只適用於文章內的解釋與說明，此提示及建議內容僅供參考之用，並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略，亦不應視為投資建議。

Day 19：文字 vs. 數字

Day 21：分類氣 (一)

系列文

人工智慧 vs.工人智慧共 30 篇

目錄

RSS系列文訂閱系列文

36 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL，給了一組編號後，用SQL產生亂數編碼的結果(更新Copilot及Google AI見解，SQL只能貼圖)

IT邦幫忙