iT邦幫忙

DAY 26
3

資料探勘的開發, 經驗與未來系列 第 26

部落格的關連分析/貘的資料探勘30講

沒有一種方法或觀點可以適用所有的角度,尤其像資料探勘這種系統, 可能要更多的模型才能趨近現實.

部落格觀察有三個初始的目標, 有一個在我的定義中是用來找出部落格的關係.

而這些方法都有各自的觀點, 並不全面, 但也有自己的方向與意義, 且各自有不同的架構, 也有一些是用資料探勘的 Relation Analysis 關連分析來做.
目前已經做過的如下:

  1. 有多少人同時提及: 這個是最早做的, 用的是 google 兩個網址的並陳,看有那些網頁同時出現這兩個網址, 這個是很有意義,但很快就不能用, 因為若是以現在部落格觀察的規模,要做完一次須要 7 萬乘上 7 萬對 google 的查詢,也就是 50 億次的查詢, 這個雖然有效, 但不合理.

  2. 部落格好友與推薦: 這個是讓 Blogger 自己建立自己的關係, 經過自己的設定然後串起來, 但這個並沒有很認真去推, 畢竟這種須要使用者來輸入的東西, 不是我想做的.

  3. 部落格足跡: 這個是由部落格讀者來決定的部落格關係, 也就是用 IP 與 Blog 用 Relation Analysis 做出來的結果, 這個雖然是算做出來, 但介面還沒有完善, 只是已經放在部落格觀察的連結了.

  4. 宅度計的麻吉度: 這個很單純的是以關鍵字八大分類屬性分數來計算出來, 並參考分數最高的關鍵字, 來算出部落格之間的關係.

  5. 宅度計的配對度: 這參考的是包含追加分類的各類主要關鍵字的結果,應該會比麻 吉度更準一點, 但有時會讓一些分類的關係出不來.

  6. 宅度計的關係度: 雖然在 "部觀門" 的確要做出類似以搜尋的關鍵字為主關係度, 但還沒做出來之前就先用宅度計的內容分析來去做, 這也是宅度計中最好的計算方式了.

這個議題我從 1996 年就開始做了, 當時要算的是個人版之間的關係, 所以花了很多時間去研究演算法. 事實上去博客來之前就有三四個計劃, 有些已經進行到一半了, 例如一個是原本要從魅力站的資料來算電子報的關係與推薦, 另一個就是歐茲的 "終級交友系統".當然上面這六個也只是個開始, 像部關門的搜尋關連分析到現在還沒開始做, 這個說不定會較有意義些,接下來就是第 2 項是最有人的因素這點, 本來就是必
須要有活動與介面來搭配才行.

甚至應該想辦法把這些做一個統整介面, 畢竟包含我自己在看這些結果, 我有些覺得點頭, 有些覺得搖頭, 雖然我相信這個的 "準確度" 與價值, 但這個計算的方向到底是不是有意義的.

就像是宅度計雖然很有價值, 但大家看前面 30 名的文章, 很多很明顯就不是寫給人看的, 人幾乎不太能夠閱讀, 擺明就是寫給搜詢引擎看的 SEO 用的,所以若是能夠扣掉這一層就準確多了, 但更大的問題還是在於每一個系統都不太一樣的問題.

畢竟部落格觀察在一開始有三點目標, 有誰還記得嗎? 尤其其中一點是: 協助讀者找到自己想要閱讀的部落格, 做這些只是要做到這個部份而已.

當然, Data Mining 資料探勘這種系統最有趣與最麻煩的地方就是之後的調校, 畢竟這個不是算出來就好, 而是要有意義, 甚至是有影響或 KPI 才行,這個過程就比做出來還更漫長了.


上一篇
無模型預測/貘的資料探勘30講
下一篇
關鍵字分析(Text Mining)/貘的資料探勘30講
系列文
資料探勘的開發, 經驗與未來30

1 則留言

0
食夢黑貘
iT邦研究生 3 級 ‧ 2010-11-06 22:34:11

這篇文章是較早之前寫的, 沒辦法, 星期六晚上只好把之前的文章拿來用... 晚一點再充實一些吧....

我要留言

立即登入留言