多維度 k-means分群

k-means

zqec1012 2022-01-26 01:20:38 ‧ 2928 瀏覽

分享至

目前有看過許多的k-means方法
不過大多數都是使用數據集或是只有使用2個特徵的csv
目前遇上了csv有37個特徵的問題相望能用sklearn.cluster來做
和使用matplotlib來將結果可視化
不過一開始就卡住了

主要是想問一些觀念上的問題
1.sklearn.cluster來做K-Means是不是主要都是在處理二維的資料
2.三維以上的資料是不是需要先經過PCA降維後再進行處理
3.二維跟多維的複雜度?像我提供的例子有21間公司每間公司有37個特徵

c7217 iT邦新手 5 級 ‧ 2022-01-26 09:05:15 檢舉

你想要詢問什麼?
你沒有清楚表達你的問題..
不知道該怎麼回答你..
或..提供協助..

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

3 個回答

claireyang

iT邦新手 3 級 ‧ 2022-01-26 20:24:10

似乎特徵太多了，也許挑選特徵中相關性比較高的項目來做分群呢？..以上提供參考

回應
分享
檢舉

登入發表回應

c7217

iT邦新手 5 級 ‧ 2022-01-27 09:07:34

降維是重點，這樣子才能真的找出有意義的分群結果、達到資料探勘的目的。
從你的表單把比較重要的欄位挑出來，再去做分群，或許就能找到關聯性。

回應
分享
檢舉

登入發表回應

I code so I am

iT邦高手 1 級 ‧ 2022-01-28 00:07:56

建議如下：
1.sklearn.cluster來做K-Means是不是主要都是在處理二維的資料
==> K-Means不限二維，再多維均可，只是計算較久。
2.三維以上的資料是不是需要先經過PCA降維後再進行處理
==> 不需要，通常是要作圖展示，才降為2或3維。
3.二維跟多維的複雜度?像我提供的例子有21間公司每間公司有37個特徵
==> 21筆/37個特徵，資料筆數太少，特徵過多(37度空間)，會造成維度災難，所以，應進行特徵工程(特徵轉換、降維)，才進行集群。

回應
分享
檢舉

登入發表回應

我要發表回答

立即登入回答

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙