iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 19
3
Data Technology

你都在公司都在幹啥R? R語言資料分析經驗分享系列 第 19

【19】當老闆突然(再)^4問:用了多次k-means 後真的有比較好嗎?說說看啊!

  • 分享至 

  • twitterImage
  •  

昨天我們只有把結果分出來,今天我們就來比較這樣的方法有哪些差異吧。

首先是多次k-means 的結果如下:

https://ithelp.ithome.com.tw/upload/images/20180105/20107299o8KIQAZUU4.png

可以看到分成了24組,為了對照方便,單一次k-means 我們就直接指定24個分類,其結果如下。

https://ithelp.ithome.com.tw/upload/images/20180105/20107299KSJDYH0IvN.png

比較兩者,後者的分析中我們看到最後只剩下四個地址沒有分類,這四個地址就是位於左上方新北市三重區的四個地址,很有可能在某次k-means分類後因與中心距離過遠,所以無法被分成一類,另外,我們也發現了多次k-means的結果在大同區變得比較緊密,但仍有些地方和單次k-means的結果一樣分布不均。

接下來我們逐步來觀察,多次k-means 中,分類是如何逐一形成的。

iter-1 complete! remain:55 addresses
https://ithelp.ithome.com.tw/upload/images/20180105/201072993r6zJgFcnk.png
第一次的範圍是鎖定在300公尺,有15個地址被分成了7類,但是不辛地有些分類只有一個地址...

iter-2 complete! remain:39 addresses
https://ithelp.ithome.com.tw/upload/images/20180105/20107299pefXCM4JUi.png
第二次範圍是400公尺,在信義區一代的一些地點被分群。

iter-3 complete! remain:24 addresses
https://ithelp.ithome.com.tw/upload/images/20180105/20107299Dyi3Ww7h4J.png
第三次範圍500公尺,主要的分類集中在西門。

iter-4 complete! remain:10 addresses
https://ithelp.ithome.com.tw/upload/images/20180105/20107299n2KihMtt8T.png
第四次600公尺,發生在西門和永和地區。

iter-5 complete! remain:6 addresses
https://ithelp.ithome.com.tw/upload/images/20180105/20107299VjszALvazw.png
第五次700公尺,右上方有四個內湖區的地址被分類。

iter-6 complete! remain:4 addresses
https://ithelp.ithome.com.tw/upload/images/20180105/20107299wsgFW5dItE.png
第六次800公尺,三重地區有兩個地址被分出來。

以上是我自己改用多次k-means分析的嘗試,繼續延伸還可以多跑幾個種子碼,再從裡面挑出最理想的結果,資料分析很難有最佳解,只能每次嘗試不同的方法,從一些結果中洞察微妙的變化啊!

ref:
day19程式碼


上一篇
【18】當老闆突然再再再問:蛤..k值好麻煩喔,那你有什麼辦法可以解決地址分類太細或太廣的問題?
下一篇
【20】當老闆嘟著嘴問:前面幾天你展示了很多資料分析手法,但是公司很多人不會寫程試,你有辦法嗎?
系列文
你都在公司都在幹啥R? R語言資料分析經驗分享30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言