iT邦幫忙

DAY 27
5

資料探勘的開發, 經驗與未來系列 第 27

關鍵字分析(Text Mining)/貘的資料探勘30講

在上上篇提到無模型預測是我認為值得寫成論文但沒寫成論文的創作, 倒是有幾個作品都被寫成論文, 倒是都不是我的, 而另一個我認為很值的寫的就是在關鍵字分析中的一項: 時間數列成長簡圖, 但若是這樣可能只能當成研究所論文而已, 而我後來進一步的把複立葉分析進一步的套用在人的行為為基礎的關鍵字分析中.

關鍵字在字的概念上是個語意網路, 但就內容之外其他而言還是一種資料, 也是可以用 Data Mining 常用的技術來做, 無論是時間序列的分析, 或者是關聯分析都是一種方法, 而在這幾年中, 我用關鍵字分析來作一些有趣的事:

  1. 就關鍵字次數而言, 當作時間序列可以分析的資訊很多, 從週期性, 離散度, 爆發性, 熱門度, 成長度, 總量等等都是可以拿來作區分一個關鍵字屬性的方法, 而其中最重要的週期性可以套用非社會性行為模型有時會發現有趣的現像.

  2. 就次數的分析而言, 除了知道過去外, 最重要的是能夠知道未來, 這包含如何去作迴歸預測與模型, 時間序列的分析各種方法, 如 ARIMA, 這個在股市等經濟預測就都很有實用的地方了, 當然能夠預測必然是有其特徵才行, 即使是爆發性的, 如同星球運行那樣有很多種軌道, 也會互相影響.

  3. 關鍵字萃取法在前幾篇就有專篇來介紹, 這個是從極發散的關鍵字用法中萃取中確實可用的方法之一, 這也說明人的行為是多麼發散.

  4. 關鍵字除了在特定方式使用外, 事實上可以套用其他方式, 也就是說在 "聽說讀寫" 中對應網路的 "讀噗搜寫" 在很多閱讀, 寫作, 發表, 搜尋, 以及各種媒介有各自的屬性, 從不同屬性的比較更可以知道關鍵字的價值與方向.

  5. 在關鍵字的關聯分析也是很重要的角色, 因為無論是同義, 類似, 同場合, 方向, 對比, 等等, 都可以從 "距離" 來解讀, 且這個距離往往是可以定義與計算的, 而這個關鍵字的關聯可以說是在市場有最大的價值.

  6. 在資料呈現上, 前一篇也說到 "關鍵字成長等高趨勢圖" 是我這幾年在關鍵字研究另一個成果, 只是這個或許只能當學術論文發表, 畢竟市場與實用價值不高, 大概只給關鍵字研究員有價值而已.

說到這邊, 的確在未來有個工作就是 "關鍵字研究員", 這種人主要是負責市場內容行銷, 關鍵字行銷, SEO, 群眾意見收集與監控等等的工作都須要這種人, 而目前這種人所須要的背景知識還是在開發中, 不然這應該是很專業與相當專業的事, 而不只是個 "操作員" 就能做的事情.


上一篇
部落格的關連分析/貘的資料探勘30講
下一篇
Data Mining 成功案例/貘的資料探勘30講
系列文
資料探勘的開發, 經驗與未來30

2 則留言

0
食夢黑貘
iT邦研究生 4 級 ‧ 2010-11-07 22:59:18

事實上鐵人賽最累的是星期六晚上, 畢竟星期天晚上就要慢慢把重心從家庭轉到工作上了..

ilovepc iT邦研究生 5 級‧ 2010-11-28 13:39:46 檢舉

一天一天寫真的很累啊!

0
sywaddr1
iT邦新手 5 級 ‧ 2010-11-09 03:48:30

您會把關鍵字搜索與後續動做如copy及選讀文件標題相結合作分析嗎???
客服依客製興趣提供顯示搜尋文件以減少偏離資料的顯示好像會是一大福音!!!!

食夢黑貘 iT邦研究生 4 級‧ 2010-11-10 17:26:24 檢舉

事實上這一直都有人在做阿, 不只是我在做而已...

我要留言

立即登入留言