資料探勘 -- 資料探勘的不同點

DAY 3

資料探勘的開發, 經驗與未來系列第 3 篇

鐵人賽資料探勘

食夢黑貘

2010-10-14 23:32:59

6062 瀏覽

分享至

我一直很喜歡把 Data Mining 當成是 "眾人智慧/工人智慧" 一個很不錯的典範, 因為就定義甚麼時, 會說資料探勘就是在一堆看似沒有意義的資料中, 找到一種可以用的資訊, 但說實在, 把資料轉成資訊的觀點來看, 所有的推理, 學習, 歸納等方法論都是可以套在這定義上, 那資料探勘這方法論跟其他方法論不一樣點在那?

當然我還是習慣寫原創觀點居多, 雖然這些是這十幾年來的想法, 但畢竟業界的經驗模式跟學界還是蠻多不一樣的, 因此只能當作業界參考居多, 學界的適用性就沒那麼高了.

數量級: 一般在做驗證與統計, 若是發問卷的話, 發出幾百份的有效度就很高了, 通常是一個問大概可以被回答個兩三次, 因此其自由度能夠上千就表示很認真了, 但在做資料探勘中, 我嘗試著用幾萬筆或幾十萬筆來跑資料, 其有效性真的是很低, 往往須要是幾百萬到幾千萬筆才開始有實用性, 事實上我的很多系統資料筆數的自由度都是以百億或千億為單位的, 有效性我覺得慢慢才開始, 所以我會以資料量級做為這是否是資料探勘的最簡單檢核點.
全部母體非採樣子體: 在統計學中, 採樣與抽樣是最合理的方法論, 畢竟不太可能去抓到所有資料, 但在資料探勘中, 理論上是有能力以及必要性去抓到所有的母體, 雖然這個母體是有受限的空間, 受限的對像, 但最後的計算也是要推論其此空間與對像的結果, 當然若是要去抽樣也不是不可以, 但那樣就又回到一般的統計, 跟資料探勘是有段差距.
時間區間: 在一般作統計與論文研究中, 很喜歡劃分時間區間, 也就是不只是子體的採樣, 也會用時間區間作一定的計算, 但資料探勘追求的是 On-Line Analysis and Processing, 也就是 OLAP, 即時的分析運算, 因此結果都是 Up to Now, 也就是即時最新的結果, 因此這是一個理論化可以自動化的流程與機制, 不是分時分區間分樣本去計算的東西, 是一個隨時隨地都是最新且不一樣的結果, 即使看起來是一樣, 但也無法保證下一刻是一樣的結果, 因為人的現實都在變, 每次的輸入都會造成不同的輸出, 就像是我每次演講時, 不是用現在的圖來計算, 也只好用剛開始或昨晚的資料來看, 因為要有較好的答案與結果, 當然是最新的比較好.
對像廣泛: 資料探勘是一個可以給所有個體適用的一種建議, 理論上不是受限在只是給 "高層決策" 者參考的統計數字, 因為人的決策是有區間的, 但 Data Mining 的建議是隨時隨地因人而易的, 雖然是可以整理出一個類別與群體, 但事實上可以精確到個體, 但人若幫別人決策必須是個整體, 所以就沒用到資料探勘最強的地方, 所以若這只是一個 Decision Support System 決策支援系統 DSS, 那就太小看 Data Mining 了.

當然上述這四項不是真的資料探勘的分野與類別, 若大家要知道這些東西, 有太多書寫的不錯了, 而我也將會有幾篇來介紹幾本書給大家作導讀.