學習如何應用K-means進行非監督學習

2024 iThome 鐵人賽

DAY 14

AI/ ML & Data

學習人工智慧的概念和技術系列第 16 篇

15th鐵人賽

玉泉

2024-09-30 23:37:33

666 瀏覽

分享至

什麼是 K-means？
K-means 是一種簡單而強大的聚類演算法，它的基本想法是將資料點分成
𝑘
k 個群組，每個群組都有一個稱為「質心」的中心點。具體步驟如下：

隨機選擇
𝑘
k 個初始質心，即每個群組的中心點。
將每個資料點指派到最接近的質心，即計算每個點到每個質心的距離，並將其歸到最近的質心所屬的群組。
更新質心位置：根據每個群組內的資料點，計算出新的質心（通常是群組內所有點的平均值）。
重複分配和更新質心，直到群組內的資料點不再變動或質心不再移動。
這個過程會不斷重複，直到找到一個穩定的結果，即資料點都分到了合適的群組中，並且質心也不再改變。

K-means 的應用場景
K-means 聚類在許多實際應用中非常有用。它可以幫助我們識別資料中的潛在模式和結構，尤其是在無法事先對資料進行標籤的情況下。以下是一些常見的應用場景：

市場細分：公司可以利用 K-means 將客戶分群，以便根據不同客群的需求提供更具針對性的產品或服務。
圖像壓縮：K-means 也常用於將圖像中的像素分類為不同顏色群組，進而減少圖像的顏色數量，達到壓縮圖像的效果。
文檔聚類：K-means 可以用來將大量的文本資料分群，幫助分析文章的主題或情感。
3. K-means 的優點與限制
在學習 K-means 的過程中，我發現它有許多優點，但也有一些需要注意的限制。

優點：

簡單易懂：K-means 的步驟非常直觀，對於初學者來說相對容易理解和實現。只需幾步就可以將資料分群，並且 Python 中的 sklearn 庫提供了方便的工具來實現它。
效率高：K-means 的運算速度較快，特別是在處理中小型資料集時效果顯著。
限制：

需要指定群組數 𝑘
k：這是 K-means 的一個挑戰。使用者必須事先指定群組數，但在許多情況下，我們並不知道資料應該被分成多少個群組。因此，我們需要嘗試不同的 𝑘
k 值來找到最佳的分群數量。
容易受初始質心影響：由於 K-means 是隨機選擇初始質心，因此初始值的選擇可能會影響最終結果。不同的初始點可能會導致不同的聚類結果，這時候需要多次運行來保證穩定性。
只能處理球形的群組：K-means 假設資料中的群組是球形且大小相似的，因此對於形狀不規則或大小差異大的群組，K-means 的效果可能不如其他聚類方法。