指數的價值/貘的資料探勘30講

DAY 18

資料探勘的開發, 經驗與未來系列第 18 篇

鐵人賽資料探勘

食夢黑貘

2010-10-29 23:21:25

3966 瀏覽

分享至

在 Data Mining 中, 通常要定義一個指數 (Index), 這個指數可能是純量 (Scale), 也可能是向量 (Vector), 但通常若是要人理解的化, 一定要化為純量 (單一個數字) 會比較讓人了解, 在計算也比較方便.

例如在關聯分析中, 這個 Index 指數就是關係, 也就是距離, 當然這個有可能是是純量或是向量, 只是在最後比較時, 還是要用純量才能夠比大小, 之間的差距才會出來, 而沒有這個指數, 很多東西都算不下去.
須要指數的原因不只是為了比較或計算, 往往還有其邏輯上的意義, 例如距離, 差異, 準確度, 接近度等等的量化標準, 有時為了要把許多數字給純量化, 用的方法有很多種, 例如是給權重的綜合指標, 經過量級調整一般化 Normailization 的平均, 但這些也有可能讓這指數失去邏輯上的意義, 但在設計這指數時, 重要的不只是意義, 而是判別度, 以及判別出來結果有沒有價值.

當然最後的指數往往代表一種觀點, 這種觀點說不定是有很多立場, 很多個先驗假設, 但都不影響其價值, 也往往在 Data Mining 中, 為了要加速計算過程, 會把很多狀況給簡化, 只要這簡化指數的計算還能夠維持其判別度, 當計算的量夠大, 就有價值, 甚至若能加入回饋機制, 還能夠自我調整.

也因為若這是一個機制, 這是一個系統, 理論上可以作自我回饋的設計, 也就是透過一次次的計算, 結果比較, 回饋, 再次驗算... 等等的有時間性的計算, 理論上可以較對與訓練 Training 越來越準確的結果, 當每次的調整頻率越快, 說不定可以收斂的越快, 最後達到一個有一個相當準確性的地步.

只是要如何設計這個 "指數", 倒是須要對這些物件與系統有一定的了解與邏輯, 也就是說須要透過不停的實作與思考, 須要許多中間產品, 也就是中間指數, 慢慢調整跟發展, 才有可能找出最合理的指數, 但若找到的話, 可以說是問題解決了一大半, 但不代表這些中間產品是沒有用的, 畢竟所有東西的開發都是為了有用.

當然這指數最有名的就是股市, 因為這個是為了代表目前股票市場的價值狀況, 但這個完全無法去完整理解甚麼是股市或股票, 但這個簡單的數字就會讓人對 "Outline" 外觀有一定的了解, 說是沒有價值是不對的, 因為這個怎樣都可以當成溝同的共同語言, 也就是說, 指數也是常用來將幾個系統拿來相互交換資訊的方式與內容.

只是這樣說可能大家還不太了解指數的價值, 我下一篇來個實例讓大家更清楚.