iT邦幫忙

0

ipas 機器學習工程師 初級-分群(clustering)

  • 分享至 

  • xImage
  •  

分群(clustering、聚類)是非監督式學習的一種,它能夠將大量數據分為多個不同的組或"聚類"。在這些分群中,同一群的數據之間的相似度很高,而不同群之間的數據相似度則較低。這種學習方式的特點是不需要依賴預定義的類別標籤(Target、Label),所以被稱為無監督學習。這裡我們要介紹的兩種常見的分群方法是 K-means和層次聚類(hierarchical clustering)。

K-means 是一種迭代的分群方法,它的目標是最小化每個聚類中所有數據點與該聚類中心點的距離之和。在K-means聚類中,首先隨機選取 k 個數據點作為初始的聚類中心,然後依據每個數據點到各聚類中心的距離,將數據點分配到最近的聚類中。接著,重新計算每個聚類的中心點,並重複分配和更新中心點的過程,直到聚類中心不再變化或者達到預定的迭代次數。

與 K-means 聚類不同,層次聚類不需要事先決定聚類的數量。層次聚類按照一定的相似度(或者距離)準則,將最相似(或者距離最近)的數據點或者聚類逐漸合併,從而形成一個聚類的層次結構。這種方法可以產生不同層次的聚類結果,並且可以用樹狀圖(dendrogram)來可視化聚類的過程和結果。層次聚類有兩種主要的變體:凝聚性層次聚類(agglomerative hierarchical clustering,從單點聚類逐漸合併)和分裂性層次聚類(divisive hierarchical clustering,從整體數據集開始逐漸分裂)。

無論是 K-means 聚類還是層次聚類,都是無監督學習中的重要工具,能夠幫助我們從大量數據中找到有意義的組別。這兩種方法各有優缺點,適合於不同的應用場景。K-means聚類適合於大數據集,並且當我們有一些關於聚類數量的先驗知識時,這種方法可以得到較好的效果。而層次聚類則適合於較小的數據集,並且當我們希望得到一個詳細的聚類層次結構,或者我們對聚類數量沒有明確的預設時,這種方法可能更為適合。總的來說,選擇哪種分群方法取決於我們的具體需求和數據的特性。


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言