二元關係/貘的資料探勘30講

DAY 12

資料探勘的開發, 經驗與未來系列第 12 篇

鐵人賽資料探勘

食夢黑貘

2010-10-23 23:12:56

4380 瀏覽

分享至

我在 2006 年寫了不少篇有關 Data Mining 的文章, 其中有一篇是有關二元關係的定義, 因為這也是關聯分析的基礎, 也舉出一些可能可以作的實例, 其中有一張圖是..

讓我用這張圖來解釋一些, 其中有一部份也當時寫的.
其中寫有關：【資料探勘的可能性】

所以跟上面所說的資料探勘方法與模型, 完全不一樣, 但慢慢的因為語意網路 (Sementic Web) 的發展, 原本當時的問題可以繞路解決:

完全不用結構的篩選, 去用相似度來做比較, 例如用特定最佳對像去尋找相似度.

用人把職位與內容做關連性延伸, 而放棄篩選的全有全無, 變成結構因人的關聯而產生關聯.

把人與公司的尋找與方向, 而做為一個延伸, 將行為特徵做為媒合的方法, 建立多重的關係.

把原本的單一度的人<=> 事, 延伸成四度的人 <=> 事 <=> 人 <=> 事來做發散與收斂, 甚至是更多度的二元關係式.

而這邊可以設計很多兩度的組合做為展開元素,如人 <=> 事 <=> 人或相反的連結, 基於不同來原來做配對.

因此作出一個結論就是:【二元關係的可能性】

一個 SNS 或 "找工作" 的網站, 很容易把二元關係定位在人與工作, 事實上真正的二元是所有關係的可能性, 例如學經歷與能力, 個性等, 都是個建立關係的另一個元素.

且把這樣關係的元素當成是條件來篩選, 更是另一個茫點, 因為關係本來存在各式各樣的可能性, 且強弱更是較難去量化估計的情型下, 全有全無是有問題的.

就像是交友網站, 很容易假設人與人是個關係, 此時就變成一元的關係, 此時關係就很難進一步定義與延伸, 此時一定要有另一元的產生來建立關係的差異性, 這樣就比較去精確.

當然從建立 Community, Circle, Friends 或Contacts 等, 都也是一種建立關係的方式, 但本來就應該更多元的建立關係, 但無論如何一定要是不同的兩元關係, 這樣資料比較容易擴展.

但真正要挑戰的事, 既然釐清了兩元關係後, 維度的多少變成真正的挑戰, 因為任何可能的二元關係, 可能是每一元都是上百萬, 且關係是上千萬個.

因此隨便一個二維的展開, 就是要算百萬乘上千萬的計算, 這樣就是 10^13 等級的運算, 若沒有收斂直接算到三維展開, 就是 10^20 的展開.

博客來與花蝶新書推薦, 都是單純的一維搜尋, 關連選購這種計算就是二維的 10^13 等級的關係計算了, 而薦購更是 10^20 等級的三維展開, 且之後我嘗試四維或五維的展開說不定會更有趣.

但在年初我也曾經思索除了關係展開的可能性之外, 語意的展開也是一個最基本的方式, 雖然內容是很標準的一維關係式, 但要解釋這個內容本身就是二維或三維的展開.

只是若是展開就算了, 因為在 Open Source 界一直沒有好的語意網路的實作練習, 有時都沒那麼簡單, 所以還是得回歸關係.

這是四年前的想法, 而現在當然不太一樣了, 因為那時候還沒投入 Data Mining 另一個大難題: Text Mining, 因為 Text Mining 可以說不是從 Meta-Data 而是直接從內容本質下手, 只是這部份當時認為至少還要再 10 年才有可能做到, 沒想到不到一年我又有新的收獲.

但拉回來, 之前所說的關聯分析的關係, 能夠用在各方面, 只要稍微改變一下其物件與關係, 就可以套用在很多方面, 那張圖只是個圖例, 畢竟所有事情都是有物件, 兩個以上的物件, 至少一個以上的關係, 因此要怎麼展開都不是問題.

只是在之前任何基礎就是二元關係, 若能掌握這原則, 能夠玩的就很多了, 當時只認為這是個未來的可能, 但當時還沒推出薦購與最終的單品個人預測, 在做完之後, 我越來越了然這關係, 但也越來越發現若不是真的用心去想這關係, 開發這 Businsess Intelligence, 資料探勘永遠在很多場合總是停在紙上談兵而已.