我一直說, 在傳統學術的研究, 很喜歡區分事情, 把時間作區間, 把事情作分類, 其中群落分析算是統計學中最常被提及的, 這個演算法雖然難度很高, 因為這是個 Big O n! 的演算法, 在定義中是不能計算的, 但這也是傳統分析師或者是企劃最喜歡用的, 因為這是個很傳統的方法學.
但事實上因為其 Big O 太高, 真的要當作我說唯有 "足夠大量的數字" 才是資料探勘的話, 這群落分析可以說是跟 "類神經網路" 一樣, 在一定量下才能計算, 所以就是不能用的意思.
但是原始的群落分析法的確是無法算的, 但不代表資料探勘無法使用群落分析 Clustering Method, 因為可以配合數值方法的逼近法, 找到最低關係/距離後, 把 Big O 變成 n^2, 此時就可以算了, 但之前的逼近法, 本身也是個 Big O n log n, 雖然讓複雜度高了一點, 但總是可以算的.
但群落分析法還是很少派上用場的原因不是沒有多少人知道如何算, 而是大家還是太習慣用 Prototype 的方式去畫分, 也就是大家常用的性別, 年齡, 收支, 區域等等來去作分類, 而不是真的用行為作關係去作群落分析, 畢竟這方法還是大家不熟悉的.
只是並不代表這問題無法解決, 因為做完群落分析後, 還是可以作因子分析, 把真正可以影響的因子找出來, 然後讓無法了解這種 "非Profile" 的分析還是把 Profile 拿來用, 只是原本的全有全無的 "區隔" 變成是個有權重的 "因素", 讓傳統的企劃者與傳統的業務得以使用.
例如雖然最新的資料探勘演算法, 若是要把一封特價信傳達給最有效用的 10000 人, 是可以直接去算出來最有可能買的 "前" 一萬人是那些, 只是怎麼算的, 是那些屬性無法定義的, 但這樣對於傳統的行銷人員是個心理的大黑洞, 這才是最難以突破的障礙, 因為行銷第一件事就是定義對像, 沒有了對像就像沒有了目標, 變成是最困難理解的問題.
就像前面所說的, 資料探勘的進步與問題的解決有時不在技術, 而是在於人心與很多政治與政策的考量.
所以我最後只有把群落分析實作實用過一次, 之後的許多計劃往往無疾而終.