iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0
AI & Data

AI、機器學習以及深度學習的語言學應用系列 第 13

Day 13 - Supervised、 Unsupervised、Semi-supervised Learning

  • 分享至 

  • xImage
  •  

昨天開始進入了模型,介紹了第一個機器學習模型(Machine Learning Model)— 決策樹(Decision Tree)。

回到昨天所舉的例子,我們想從一堆郵件當中分辨出垃圾郵件,餵給模型的資料是有標記過的資料,也就是說,這些郵件已經被(人工)標記為「一般郵件」跟「垃圾郵件」。

模型根據這個標記過的資料,去做學習並進行預測,這是一種 Supervised Learning(監督式學習)。

今天就要來介紹模型不同的學習模式:Supervised、Unsupervised、Semi-supervised Learning

這邊簡單介紹一下這三種學習模式:

Supervised Learning → 用標記的資料
Unsupervised Learning → 用沒有標記的資料
Semi-supervised Learning → 結合有標記跟沒標記的資料


Supervised Learning(監督式學習)

  • 監督式學習使用有標記(label)的資料進行學習
  • 我們要先進行人工的資料標記,然後把有標記過的資料為給電腦進行機器學習
  • 這種方式對電腦而言比較輕鬆,但是對人而言,因為需要標記,準備資料會比較麻煩
  • 如果人工標記錯誤的話,會嚴重影響機器的判斷
  • 優點:這種機器學習方式雖然可以提高機器預測的準確率
  • 限制:在面對未知的領域時,就比較無法運作

常見的監督式學習類型的機器學習技術

  1. logistic regression 邏輯迴歸:根據一個或多個輸入預測分類輸出
  2. binary classification 二進制分類
  3. linear regression 線性迴歸:根據一個或多個輸入,進行連續行數值的預測
  4. decision tree 決策樹

Unsupervised Learning(非監督式學習)

  • 不需要事先進行人工標記
  • 不像 Supervised learning 從輸入跟輸出的資料學習,Unsupervised learning 只從輸入的資料學習,直接從資料中找規律
  • 常見的任務可能包含:
    • Clustering(集群)(例如:K-means)
    • 找出資料的關聯性(Association)
    • 降維(例如:PCA、LDA)

Semi-supervised Learning(半監督式學習)

  • 半監督式學習就是同時套用監督式學習和非監督式學習技術
  • 在標記資料有限的情況下,使用少量標記資料+大量未標記資料一起訓練
  • 如果人工標記過的資料有限,就可以利用半監督式學習,可以取得更高的準確性和效率

三者比較

  • 監督式學習雖然比較能確保得出結果的準確率,但是其所能應用的範圍有限制,面對沒有遇過的資料也比較沒有應變能力
  • 非監督式學習能夠探索的方向較廣,但是我猜想花的時間應該也會比較久,不過彈性相對來說很高
  • 半監督式學習可能比較符合現實當中會遇到的資料狀況,我們無法人工標記所有的資料,只能進行有限度的資料標記,剩下的就可以留給機器自行學習

參考資料1
參考資料2


上一篇
Day 12 - Decision Tree(決策樹)
下一篇
Day 14 - Naive Bayes Classifier(貝氏分類器)
系列文
AI、機器學習以及深度學習的語言學應用15
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言