iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0

~今天要分享的是「Kmeans介紹」~

Kmeans是一種非監督式機器學習方式,主要用於處理集群分析(聚類)的問題。
Kmeans屬於分割式集群方式的一種,其核心原理是從資料中隨機選擇K個點作為群的中心點,再來計算其餘樣本與每個群中心點間的距離,接著將這些樣本分配到距離最近的中心點所屬的群,每新增一個樣本到群裡就會計算群裡樣本的平均值來更新一次群的中心點,一直重複這些步驟直到群的中心點不再改變,最後將資料中的樣本分成K個不同的群,使得各個群裡間的差異小,但群與群之間的差異大

[考試愛考觀念]

  1. 由於Kmeans是根據群內樣本來計算中心點,所以會容易受到離群值的影響。
  2. 另一個常與Kmeans做比較的是Kmedoid集群法,Kmedoid是使用每個群的中位數當作中心點,所以不易受到離群值的影響。另外,用來評估Kmedoid的其中一個指標是側影係數,側影係數的範圍在-1到1之間,越接近1代表越適合分配在現在的群裡,越接近-1代表越適合分配在其他群裡,而越接近0則代表難以分配到任何一個群裡。

上一篇
鐵人賽第二十五天~模型參數挑選
下一篇
鐵人賽第二十七天~Kmeans實作
系列文
打造數據科學之路:資料分析與機器學習的完整指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言