資料探勘演算法 - 分群法 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2017 iT 邦幫忙鐵人賽

DAY 23

Big Data

從學生到職場：菜鳥資料科學家的第一個月系列第 23 篇

資料探勘演算法 - 分群法

2017鐵人賽

WeiYuan

2016-12-25 20:37:21

9229 瀏覽

分享至

分群法

分群法或稱叢集法（Clusering）是相對於分類法的另外一種資料探勘技術。分群法也是用來將資料做區分的，差別在於原本的資料都是未經過類別區分的。因為是未知類別的資料集進行區分所以也被稱為非監督式學習（Supervised Learning）。

分群法通常是用在分組使用。舉例來說，假如是一家行銷公司，想要對不同的使用者進行廣告，就可以利用分群法先將使用進行初步的分組。分群法可以用在市場研究，圖形識別等等的領域。

基本概念

分群法針對沒有預先定義好類別的資料分組，是一種非監督式的學習。基本上的目標是達成以下兩個指標：

同一個群在的資料彼此間相似
不同群間的資料彼此間不相似

因為資料是由不同的屬性所組成的向量，會呈現成一個多維的物件。所以通常會利用「距離」的概念來表示相似程度。兩筆資料會表示為兩個點，兩點之間的距離越大代表越相似，反之越不相似。

演算法

K-means

K-means 是經典的分群演算法，目標是分成 k 個不同的群。方法步驟如下：

step1. 隨機任挑選 k 個點作為中心點，分為 k 群。
step2. 每一點計算與中心點的距離，判斷該點是哪一群。
step3. 每一群內重新計算平均值，作為新的中心點。
step4. 回到第二步，重新分群，直到分群結果固定。

Reference

聚類分析(Cluster Analysis)

資料探勘演算法 - 分類法

淺談機器學習

系列文

從學生到職場：菜鳥資料科學家的第一個月共 28 篇

RSS系列文訂閱系列文

89 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19837 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從學生到職場：菜鳥資料科學家的第一個月系列 第 23 篇