iT邦幫忙

2023 iThome 鐵人賽

DAY 12
1
AI & Data

初次抓舉AI的世界系列 第 12

非監督式演算法 D1 - K-Means Clustering

  • 分享至 

  • xImage
  •  

先幫大家快速復習一下,監督與非監督的學習區別:

  • 監督式學習 → 鑑往知來 / 訓練資料集有標記
    • 目標是通過這些標記來讓模型學習,以便對新的未標記數據進行預測或分類
  • 非監督式學習 → 看圖說故事 / 訓練資料集沒有標記
    • 目標是從數據中發現 pattern、結構或群體,以探索數據、理解數據的內在結構

說到非監督式學習,最典型的應用就是聚類(Clustering)了,它會將數據分為具有相似特徵的群體。而聚類有很多種方法,今天要著重介紹的 K-Means Clustering 就是其中的某一種

聚類演算法的方法

聚類方法的五個類別:

  • Partitioning algorithms:將數據分為不同的分區,然後透過某些準則來評估它們
    • 例如:K-Means、K-Medoids、CLARA、CLARANS
  • Hierarchy algorithms:使用某些準則創建數據集的分層分解,以便更好地理解數據的結構
    • 例如:BIRCH、CURE、ROCK
  • 基於密度:基於數據點之間的連通性和密度函數進行分類
    • 例如:DBSCAN、FDC、GDBSCAN、DBCLASD、OPTICS
  • 基於網格:基於多層次的細粒度結構來進行聚類
    • 例如:BANG、WaveCluster、STING
  • 基於模型:為每個假設的群集建立一個模型,其思想是找到最適合這些模型彼此之間的最佳擬合,以捕捉不同群體的特徵

K-Means Clustering

是 Partitional clustering approach 中的一種典型方法
它的核心目標是將資料集分成 K 個不同的群體,使得每個資料點都屬於最接近的中心點所代表的群體。這可以幫助我們理解數據的結構,並找到數據中的模式

步驟

  1. 選擇 K 值:即我們希望最後將數據分為多少個群體,這個 K 值的選擇很重要會影響結果
  2. 初始化中心:隨機選擇 K 個資料點作為初始中心,這些中心將代表每個群體
  3. 分配資料點:將每個資料點分配到距離其最接近的中心的群體中
  4. 重新計算中心:計算每個群體的新中心,通常是該群體內所有資料點的平均值
  5. 迭代:重複步驟3和4,直到中心不再變化或達到預定的迭代次數

當算法收斂時,我們就可以得到 K 個群體,每個群體都有一組中心點,這些中心點代表了每個群體的特徵


上一篇
半監督式演算法 D4 - 2-step strategy
下一篇
模型學習方式 D7 - 遷移學習
系列文
初次抓舉AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言