iT邦幫忙

DAY 12
1

資料探勘的開發, 經驗與未來系列 第 12

二元關係/貘的資料探勘30講

我在 2006 年寫了不少篇有關 Data Mining 的文章, 其中有一篇是有關二元關係的定義, 因為這也是關聯分析的基礎, 也舉出一些可能可以作的實例, 其中有一張圖是..

讓我用這張圖來解釋一些, 其中有一部份也當時寫的.
其中寫有關 :【資料探勘的可能性】

所以跟上面所說的資料探勘方法與模型, 完全不一樣, 但慢慢的因為語意網路 (Sementic Web) 的發展, 原本當時的問題可以繞路解決:

  1. 完全不用結構的篩選, 去用相似度來做比較, 例如用特定最佳對像去尋找相似度.
  2. 用人把職位與內容做關連性延伸, 而放棄篩選的全有全無, 變成結構因人的關聯而產生關聯.
  3. 把人與公司的尋找與方向, 而做為一個延伸, 將行為特徵做為媒合的方法, 建立多重的關係.
  4. 把原本的單一度的 人<=> 事, 延伸成四度的人 <=> 事 <=> 人 <=> 事 來做發散與收斂, 甚至是更多度的二元關係式.
  5. 而這邊可以設計很多兩度的組合做為展開元素,如 人 <=> 事 <=> 人 或相反的連結, 基於不同來原來做配對.

因此作出一個結論就是:【二元關係的可能性】

一個 SNS 或 "找工作" 的網站, 很容易把二元關係定位在人與工作, 事實上真正的二元是所有關係 的可能性, 例如學經歷與能力, 個性等, 都是個建立關係的另一個元素.

且把這樣關係的元素當成是條件來篩選, 更是另 一個茫點, 因為關係本來存在各式各樣的可能性, 且強弱更是較難去量化估計的情型下, 全有全無是有問 題的.

就像是交友網站, 很容易假設人與人是個關係, 此時就變成一元的關係, 此時關係就很難進一步定義與延伸, 此時一定要有另一元的產生來建立關係的差異性, 這樣就比較去精確.

當然從建立 Community, Circle, Friends 或Contacts 等, 都也是一種建立關係的方式, 但本來就應該更多元的建立關係, 但無論如何一定要是不同的兩元關係, 這樣資料比較容易擴展.

但真正要挑戰的事, 既然釐清了兩元關係後, 維度的多少變成真正的挑戰, 因為任何可能的二元關係, 可能是每一元都是上百萬, 且關係是上千萬個.

因此隨便一個二維的展開, 就是要算百萬乘上千萬的計算, 這樣就是 10^13 等級的運算, 若沒有收 斂直接算到三維展開, 就是 10^20 的展開.

博客來與花蝶新書推薦, 都是單純的一維搜尋, 關連選購這種計算就是二維的 10^13 等級的關係計算了, 而薦購更是 10^20 等級的三維展開, 且之後我嘗試四維或五維的展開說不定會更有趣.

但在年初我也曾經思索除了關係展開的可能性之外, 語意的展開也是一個最基本的方式, 雖然內容是很標準的一維關係式, 但要解釋這個內容本身就是二維或三維的展開.

只是若是展開就算了, 因為在 Open Source 界一直沒有好的語意網路的實作練習, 有時都沒那麼簡單, 所以還是得回歸關係.

這是四年前的想法, 而現在當然不太一樣了, 因為那時候還沒投入 Data Mining 另一個大難題: Text Mining, 因為 Text Mining 可以說不是從 Meta-Data 而是直接從內容本質下手, 只是這部份當時認為至少還要再 10 年才有可能做到, 沒想到不到一年我又有新的收獲.

但拉回來, 之前所說的關聯分析的關係, 能夠用在各方面, 只要稍微改變一下其物件與關係, 就可以套用在很多方面, 那張圖只是個圖例, 畢竟所有事情都是有物件, 兩個以上的物件, 至少一個以上的關係, 因此要怎麼展開都不是問題.

只是在之前任何基礎就是二元關係, 若能掌握這原則, 能夠玩的就很多了, 當時只認為這是個未來的可能, 但當時還沒推出薦購與最終的單品個人預測, 在做完之後, 我越來越了然這關係, 但也越來越發現若不是真的用心去想這關係, 開發這 Businsess Intelligence, 資料探勘永遠在很多場合總是停在紙上談兵而已.


上一篇
Data Mining 人的角色/貘的資料探勘30講
下一篇
群落分析/貘的資料探勘30講
系列文
資料探勘的開發, 經驗與未來30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
食夢黑貘
iT邦研究生 3 級 ‧ 2010-10-23 23:13:38

不好意思, 這篇文章有一半是舊文, 但我也不想作重工阿...

我要留言

立即登入留言