iT邦幫忙

0

多維度 k-means分群

  • 分享至 

  • xImage

目前有看過許多的k-means方法
不過大多數都是使用數據集或是只有使用2個特徵的csv
目前遇上了csv有37個特徵的問題 相望能用sklearn.cluster來做
和使用matplotlib來將結果可視化
不過一開始就卡住了
https://ithelp.ithome.com.tw/upload/images/20220126/201460748zl4ibFTUC.jpg
主要是想問一些觀念上的問題
1.sklearn.cluster來做K-Means是不是主要都是在處理二維的資料
2.三維以上的資料是不是需要先經過PCA降維後再進行處理
3.二維跟多維的複雜度?像我提供的例子有21間公司每間公司有37個特徵

c7217 iT邦新手 5 級 ‧ 2022-01-26 09:05:15 檢舉
你想要詢問什麼?
你沒有清楚表達你的問題..
不知道該怎麼回答你..
或..提供協助..
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中
0
claireyang
iT邦新手 3 級 ‧ 2022-01-26 20:24:10

似乎特徵太多了,也許挑選特徵中相關性比較高的項目來做分群呢?..以上提供參考

0
c7217
iT邦新手 5 級 ‧ 2022-01-27 09:07:34

降維是重點,這樣子才能真的找出有意義的分群結果、達到資料探勘的目的。
從你的表單把比較重要的欄位挑出來,再去做分群,或許就能找到關聯性。

1
I code so I am
iT邦高手 1 級 ‧ 2022-01-28 00:07:56

建議如下:
1.sklearn.cluster來做K-Means是不是主要都是在處理二維的資料
==> K-Means不限二維,再多維均可,只是計算較久。
2.三維以上的資料是不是需要先經過PCA降維後再進行處理
==> 不需要,通常是要作圖展示,才降為2或3維。
3.二維跟多維的複雜度?像我提供的例子有21間公司每間公司有37個特徵
==> 21筆/37個特徵,資料筆數太少,特徵過多(37度空間),會造成維度災難,所以,應進行特徵工程(特徵轉換、降維),才進行集群。

我要發表回答

立即登入回答