從降冪來降低計算量/貘的資料探勘30講

DAY 8

資料探勘的開發, 經驗與未來系列第 8 篇

鐵人賽資料探勘

食夢黑貘

2010-10-19 22:01:55

4442 瀏覽

分享至

在大約了解甚麼是 Big O 後, 接下來知道資料越多的話, 演算法的 Big O 會造成計算量增加的多寡, 甚至是變成可以算或不可以算的決勝點, 當然上一篇說到 O(n log n) 是可以算的演算法, 但即使如此, 真的到 O (n^2) 還不至於不能算, 只是要有方法的降低須要計算的量, 還是可以算的, 但是要如何降低要計算的量, 有幾種方法:

因為這是眾人的眾多資料, 若是以矩陣的觀點來看, 這是一個 "近乎零的矩陣", 因此若是用真的矩陣計算是很浪費的, 可以利用其他的演算法來算距離與關係, 甚至在這種近乎零的量中, 只算一維的幾百筆資料, 比算上萬維的百萬筆計算, 一口氣少了幾萬分之一, 且實用性是相當夠了.
通常關係的演算法中, 真的要實用, 可能要做維度的展開, 有時要算很多次的 Relation 關係才會有資料, 也就是從少數的關係中展開出更多的關係, 不然算出來的資料總是很少 (本來就是趨零矩陣), 因此若是要展開三到四次的關係, 與其真的去算, 還不如先算好每次的展開後, 甚至先做好兩次的展開並儲存起來, 而算三到四次的展開時只要算兩次就好, 可以降低大量的計算.
雖然我們是要算出所有的結果, 但說要算出參考值, 一件事真的足以參考的量是有限的, 不是 50 項, 也是在 500 項以下, 一個人要看那麼多項參考是不太可能的, 但事實上最後還是會過濾一些不須要的資料, 因此最後只要準備個 2~3 倍有時就很夠了, 或者是說用最後的量來做之前要計算的量的篩選, 此時就又可以降低不少計算量了.
通常要有算出一定的關係, 一定要做 Normalization (一般化), 也就是把量度化成相同的平準點, 因此一開始計算時, 就先以附近的資料來直接作計算, 而乖離太多的數字就不用計算了, 畢竟真的算也排不上有效的結果量裏面, 如上面所說的, 真正要用的數量本來就不須要那麼多.

畢竟資料探勘是一個聚焦的動作, 只是要把這個如此離散的資料找到共同點, 要做的聚焦往往要多幾次發散才行, 因此在每次發散一定要降冪留下一定的資料再來算, 不然就真的算不完了..