單品, 單人/貘的資料探勘30講

DAY 24

資料探勘的開發, 經驗與未來系列第 24 篇

鐵人賽資料探勘

食夢黑貘

2010-11-04 23:38:05

4171 瀏覽

分享至

在一般的統計分析中, 無論是因子分析或其他方式, 最後一定是去作分類與分群, 也就是在一定的 "Sector" 區間, 在 EC 電子商務中, 頂多只能去做一群人以及一類商品來去做預測, 但事實上我們都知道, 世界上沒有兩個人或兩個東西是一樣的, 因此用這種方式來預測或許可能很準, 但有都是在足夠大的空間中.

這句話的意思是, 若是沒有足夠大的人事物, 不太可能算得出來人與商品的差異, 因此若是在追求最多人買的類別商品與那群對像最有可能買的話, 事實上就是很夠了.
但人的行為若是那麼單一或單純就好了, 人有趣的地方就是充滿的不可預期的因素, 其中包含許許多多的機運, 時空, 個性, 資訊缺乏, 取向, 而這些因子都會影響人的行為以及決策.

早期的數學與科學相信若能夠輸入足夠多的因子, 要做預測並不難, 但在 Chaos 理論之後, 已經知道並不存在足夠多的因子, 因為即使再微小的原因通常不是不用計算, 而是在無法計算之後造成很大的影響.

因此在放棄用這種古典機率與推理後, 反而可以嘗試的是承認個人個體的差異, 在這差異中找到相同點, 用這個最模糊的相同性 (距離) 來判斷與預測個體, 只是這個距離的相同性, 在前面的 Relation Analysis 到底要展開幾維 (Dimension) 才能夠發散, 最後才有資料可以聚焦, 這就要靠實務的經驗了.

因為個體在一次 (一維) 的關係中, 交集並沒有你想像中那麼大, 尤其是若是要去預測特定商品, 但若要預測所有商品, 這個關係就又過於太大到無法計算, 因此通常要經過 2 次的關係後再來聚焦, 也就是 5 次的關係, 而這個在實務上當然是必然已經在之前的 4 次是事先處理過的, 算的不是人的關係, 而是更多的人, 此時會讓重覆的人的商品更具有影響力.

事實上這是非常可怕的, 也就是說當你一進到這 EC 網站, 就可以算出你最有可能買的商品依機率序有那些, 或者是說直接算出這個商品最有可能買的依序是那些, 這會大幅的降低消費錯誤, 降低推銷與廣告的價值, 但可以訴諸最好的消費經驗, 畢竟, 一個通路商不是為了某些商品去背書, 而是讓消費者買得愉快後下次還可以再來買.

在之後的 Text Mining 後, 有了關鍵字作基礎, 我們可以做到的事直接是這個部落格主或噗主最有可能買那些商品, 或者是那些商品最有可能被這些網路個體來買, 要做到個體一對一的精準行銷靠資料探勘就不難做到了.