3-8 前往農場前夕
「設定的方法有很多種,如果是已經知道群數的話,就可以設定k為該群數,讓k-means自己找出各群的中心點。如果不確定確切群數的話,可以用The Elbow Method,這個方法的看法有點像之前說的PCA,與PCA不同的是,x軸的數量指的分群的群數,而PCA指的是所要選用前幾個eigenvector的數量。看法一樣是觀察 轉折點 ,也就是看在某個點之後的y值變得比較平緩後,該點x就是建議k-means群數的k值。這邊的y軸指的是 在限定k群下每個點到最近的中心點的SSE(Sum of Square Error,也就是距離的平和) ,所以說當y的變化趨近不明顯時,表示再增加一個新的中心點時,不會有甚麼太大的效益。」飛哥仔細的說明著應用方式。
(參考下方網址資料,圖片好大不會改大小......)
「喔喔喔!原來是這樣啊,沒想到雖然跟PCA的圖很像,但是卻有不同的解釋意涵。」小博點頭道。
「對啊,還有其他方法可以檢定說k-means的k值用多少比較適合,對每個k值都能給出一個p-value。不過這部分的想法跟上面的方法比就是多了檢定的步驟,能給出統計上較客觀的說法。」飛哥拿著雞群的分布圖說明著。
「理解完的話就準備收拾行李吧!明天一大早還要坐車去南投呢!」飛哥催促著小博。
「好咧!我這就去收。」小博迅速的應答著。
小博一溜煙的跑進休息室,整理著資料跟行李,準備迎接明天的南投烏骨雞農場。
後記:鐵人賽接近尾聲,飛哥即將迎來最後一次的旅程,這次的烏骨雞農場會有甚麼發展,且看明日的文章!
資料參考:
https://medium.com/analytics-vidhya/how-to-determine-the-optimal-k-for-k-means-708505d204eb