iT邦幫忙

2023 iThome 鐵人賽

DAY 12
0
AI & Data

進入AI的世界系列 第 12

➤D-12 主要學習理論-4(監督式學習、非監督式學習、半監督式學習)

  • 分享至 

  • xImage
  •  

監督式學習

  1. 監督式學習的基本概念與特色
    監督式學習(Supervised Learning)指人類在輸入機器的訓練資料時,預先提供了資料判斷的標準答案,以及所謂的標註(Label),並在輸出答案時判斷是否有誤差,並回饋給機器,尤其加以調整修正的一種學習方法。
    約以70%資料進行模型建立與訓練,10%~15%資料來先行驗證模型的準確度與可靠度,再利用剩下的15%~20%資料來進行模型預測。
  2. 監督式學習的主要任務
    ①分類(Classification)。
    ②迴歸(Regression)。
  3. 監督式學習的函數表示方法:f(x) = y。
  4. 監督式學習主要的演算法
    監督式學習因各種不同的需求有各種不同的演算法,但目前則可分為非類神經網路的「傳統機器學習模型」(Traditional Machine Learning)與「神經網路深度學習法」的兩大陣營。

非監督式學習

  1. 非監督式學習的基本概念
    人類在訓練機器時並不會提供任何的標準答案,讓機器在訓練資料中,自己做特徵的選擇與抽取,並建立模型來對資料進行判斷與分析。
  2. 非監督式學習的主要應用
    ①分群(Cluster Analysis):將一大群的樣本依據其在維度空間上的距離,或樣本間的「相似度」(Similarity)將相類似的樣本聚為一群,力求群內樣本間的距離最小,群與群之間的距離最大的方法。
    ②維度縮減(Dimensionality Reducing):將多個「原始變數」透過某種運算濃縮組合成少數幾個抽象層次更高、更具代表性與解釋能力的「組合變數」。
    ③關聯分析(Association Rule):由輸入資料的特徵值中尋找特徵值彼此之間相關性很高的項目。
  3. 非監督式學習優缺點
    ①非監督式學習(Unsupervised Learning)的主要優點:
    • 成本低速度快:不用人工干涉與標註,機器自行能針對資料的特性進行分群,成本低速度快。
    • 發現資料的本質特色:找到人類對於資料本質上自然存在的特性與類別無法瞭解的部分。
      ②非監督式學習的主要缺點:
    • 不夠精確:在分群時不知道自己的結果正不正確,所以常出錯,精確度不高。
    • 無法調整:沒有判別正確錯誤的回饋資訊,所以其無法自動調整參數來修正模式。
    • 分群的結果與人類目的不同:沒有人類的監督,機器會自行選擇特徵值差異性最大的來做分群的依據,如此分析結果就會與人類的預期差異很大。
  4. 非監督式學習的特色
    • 學習哲學:人類不指導、不糾正。
    • 函數表示:只有x沒有y。
    • 主要應用:集群、連結規則、縮減維度。
      集群☞將資料按照類似性分群。
      連結規則☞找出相關性高的變數群。
      縮減維度☞組合更高層次的特徵值。
    • 主要演算法:K-Means、集群分析(Cluster Analysis)、主成成分分析(PCA)等。
    • 優點:不用人工介入、最省力、成本最低。
    • 缺點:準確率不高、無法自動修正調整、分群結果無法控制。
    • 試用階段:探索階段。

半監督式學習

  1. 先執行監督式學習再執行非監督式學習
    以少量標記的資料來訓練模型,以模型來預測為標記資料的類別,再將新標註好的資料加入新的訓練資料中,如此不斷的增加有標記的資料,提高預測的準確度。
  2. 先執行非監督式學習,再執行監督式學習
    為目前最普遍的方式,也稱預訓練模式(Pre-training Model)或稱為遷移式學習(Transfer Learning),機器先經過大量的非監督式學習,產生大致適合的參數以後再針對特定的領域進行監督式學習來微調原來的參數,使其達到訓練的準確度標準,最著名的就是語言模型(Language Model)。

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-11 主要學習理論-3(機器學習學派理論與架構)
下一篇
➤D-13 主要學習理論-5【完】(強化學習)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言