iT邦幫忙

DAY 25
7

資料探勘的開發, 經驗與未來系列 第 25

無模型預測/貘的資料探勘30講

  • 分享至 

  • xImage
  •  

高樓從平地起, 人總是站在偉人的肩膀上, 在完成曠世論文之前一定已經有許多研究成果了, 任何創意的前提是要沉浸在其環境, .....

我們常說很多事情都是因為一個關鍵點或轉唳點造成很大的突破與影響, 但事實上並沒有提出說在做到之前須要花多少努力, 不說這些努力, 而是說最後一個讓你吃飽的包子的價值是相當不公平的.
在之前介紹了 Big O, 以及 "指數" 等等的觀念, 我們就真的來講幾件對我而言有很大印像的幾個創意好了, 就如引言所說的, 這些都是一個階段一個階段造成, 不是一蹴可汲的.

這個故事要從 MRTG 講起, 做過網管的知道這個是 Multi Router Traffic Graph, 也就是去監視流量的一個 Data Presentation (資料呈現) 的圖, 而作者之後又繼續做了一個叫 RRDTool, 也就是 Round Robin Database, 也就是時序資料庫的工具, 用這個工具可以 "即時" 的 OLAP 產生圖型, 而在於你要輸入甚麼樣的資訊而已.

因此要了解時間的重要性之後, 才能夠知道這種有時間的資料的價值以及處理方式, 所以當我在做預測的時候, 很習慣的預測的歷史資料畫成一個圖, 來知道這模型預測的準確度為何, 用的工具就是 RRDTool, MRTG, 在另一串的 "我的30份工作經驗" 中有談到這個 "預測業績" 的重要性.

從最簡單的一次外插法, 多次多元預測, 到歷史比較預測後, 也將時間序列等等因素都加進去後, 將業績預測提高到一定的準確度, 因此當任何風吹草動都可以跟 "常態" 作比較, 很輕易的判讀 "問題" 點, 這也是 Data Mining 的好處.

只是在我把經驗給無限化後, 我發現一個有趣的現像, 如同資料探勘理論基礎, 天底下無新鮮事與天底下沒有兩件一樣的事, 再加上指數的概念, 距離的定義, 我們就可以將很多經驗納入計算, 而經過一次次的經驗, 可以讓 Data Mining 系統自我學習, 也就是說即使今天真的算錯了, 明天就會把今天的經驗納入模型, 而去計算這成千上萬的模型, 與其說是有模型的預測, 還不如說這個是不相信模型的存在了.

事實上這想法跟本不重要, 而是在事前的資料收集與整理, 流程與計算的建立, 最後你一定可以找到一個可以做為參考的解法.

這個跟所謂的決策樹或條件式或歸納是完全不一樣的, 因為在這個演算法中, 看起來像是基因演算法, 最後只有一個結果, 但基因演算法還有可能成為一個公式, 只是為甚麼不知道罷了, 而這個可能是連每次計算或怎計算都會影響最後的結果, 最後只是看怎收斂而已.

這個邏輯與流程, 在某方面是很像 "GroundHug" 的方式, 也就是說, 不知道甚麼是最佳解, 那就窮舉後, 從每次的計算找出最接近解答的, 即使在不知道甚麼是解答, 雖然人的智力與時間, 精力無法去窮舉的計算, 但電腦透過網路的大量運算就有可能透過無限次的計算在一定時間內找到某種指數定義的最佳解.

當然要找到指數的定義相當重要的, 例如說: "用現在預測現在是百分之百準確", 而用像 MRTG/RRDTools 的觀念用圖型來定義出指數, 最後找到結果..

在我的資料探勘經驗中, 我自己是沒寫過論文, 但很多人拿我的成果來寫論文, 只是到目前還沒有人寫這題目, 雖然我認為這是最有價值的成果之一.

* GroundHug 指的是像 "今天暫時停止" 的永遠重覆同一天的模型.


上一篇
單品, 單人/貘的資料探勘30講
下一篇
部落格的關連分析/貘的資料探勘30講
系列文
資料探勘的開發, 經驗與未來30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
食夢黑貘
iT邦研究生 3 級 ‧ 2010-11-05 23:14:56

除了部落格觀察外, 被寫論文最多篇的是上次說的疊迨式泡沫萃取法, 我也是為了讓大家能寫論文, 所以勉強創造出這名詞..

我要留言

立即登入留言