iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0

非監督式學習( unsupervised learning )

沒有給定事先標記過的訓練資料,自動對輸入的資料進行分類或分群

非監督式學習的區別與監督式學習

  • 缺少標籤 資料集通常不包含標籤或目標變量
  • 目標不同 非監督式學習在探索資料的結構,例如群集或模式
  • 應用場景不同 非監督式學習常用於資料探索、特徵選擇、降維和異常檢測等

常見非監督式學習演算法

聚類 ( Clustering )

將資料分成不同的組或集群,每個集群包含相似的資料點

  • k-平均演算法 ( K-Means Clustering ):
    將資料分為 K 個聚類,每個聚類由其平均值(稱為聚類中心),將資料點劃分到最近的聚類,然後更新聚類中心,直到收斂
  • 層次聚類 ( Hierarchical Clustering ):
    通過建立一個聚類層次結構,可以根據資料的相似性分為不同的聚類,有兩種主要方法:凝聚層次聚類(自下而上)和分裂層次聚類(自上而下)
  • DBSCAN ( Density-Based Spatial Clustering of Applications with Noise ):
    基於密度的聚類方法,能識別具有足夠高密度的區域作為聚類,可以發現球形聚類,也可以處理不規則形狀的聚類,並識別噪聲資料

降維 ( Dimensionality Reduction )

減少資料集的維度,同時保留盡可能多的信息,對於處理高維資料、可視化資料以及提高機器學習模型的效率和性能很有用

  • 主成分分析 ( Principal Component Analysis, PCA ):
    找到資料中的主要方差方向(主成分),通過將資料映射到新的坐標系統,資料就可以降維,也最大程度保留變異性,常用在資料可視化和特徵選擇
  • t-隨機鄰近嵌入法 ( t-Distributed Stochastic Neighbor Embedding, t-SNE ):
    用在高維資料的降維和可視化,適合探索資料的局部結構,通過將高維資料映射到低維空間,保留相似性關係
  • 自編碼器 ( Autoencoders ):
    一種神經網絡架構,包括編碼器部分將資料壓縮成潛在表示,然後解碼器部分再還原為原始資料,自編碼器可以用在降維、去噪和生成資料

異常檢測 ( Anomaly Detection )

識別資料中的異常或不尋常模式

  • 高斯分布擬合( Maximum Likelihood ):
    假設資料來自於某個已知分布(通常是高斯分布),通過計算最大似然估計的參數(均值μ和協方差矩陣Σ),可以找到最能代表資料的分布,最後使用分布來計算每個資料點的異常得分,異常得分高的點被視為異常
  • Auto-Encoder:
    是一種神經網絡架構,將輸入資料壓縮成低維表示,然後還原成原始輸入,如果輸入資料是正常的,Auto-Encoder 可以學習到正常模式的壓縮表示,那麼異常資料的還原誤差通常會更大,因此用於異常檢測
  • One-Class SVM:
    是一種支持向量機變體,用在學習正常資料的特徵,並劃分資料空間,使得正常資料位於超平面的一側,當新資料點位於超平面的另一側時,被視為異常
  • Isolation Forest:
    是一種基於 Ensemble 的方法,它通過迭代地將資料空間劃分成子空間,以找到異常,適合檢測低密度區域中的異常資料點,具有高效性和高精度,Isolation Forest 在大規模資料集上進行異常檢測時很有用

參考資料

https://zh.wikipedia.org/zh-tw/%E7%84%A1%E7%9B%A3%E7%9D%A3%E5%AD%B8%E7%BF%92
https://medium.com/%E5%AD%B8%E4%BB%A5%E5%BB%A3%E6%89%8D/%E7%95%B0%E5%B8%B8%E6%AA%A2%E6%B8%AC-anomaly-detection-fa300fe6df71


上一篇
Into The Woods~隨機森林
下一篇
召集夥伴~集成學習
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言