文字探勘 Text Mining 嚴格說不見得算是 Data Mining 的一支, 因為資料探勘都是在內容之外, 行為, 後設以及數字性很高的一種模型, 而文字探勘確是一個以語意或語意網路 Semantic Web 等等的代數結構的一種演算法, 單就數學演算法或計算方式是一個相差很大的領域, 但最後的方式往往一樣的:
"解讀人的行為, 進一步的輔助或預測"...
相較我在 1992 年踏入 Data Mining, 雖然我有很多次想走進 Syntax and Lexial Analysis (語法與語意分析), 但最後因為沒有真正的實作而作罷, 而一直到 2006 年的時候, 由於部落格觀察累積了不少資料, 絕大部份的是文字, 因此若沒有好好投身 Text Mining 是很可惜的, 雖然我在 B 公司最後也是因為工作的須求決定投入, 只是最後沒在那邊派上用場.
當然在做文字探勘之前, 我們都知道 Natual Language 自然語言可能還要好幾年才能派上用場, 曾檢視過中研院的幾套, 發現真的要用到真實社會是很困難的, 單說這方法用在特定領域去 Training 出來並不是不可能, 但要用在普遍範圍的地方是有難度, 最重要的一個原因是:
"語言是個活的東西, 每天都有新的字詞產生, 若是沒有一個可以自己產生詞庫的系統或架構, 都只能使用一陣子或特定範圍"...
而網路這種正在進行的 "眾人智慧" 剛好很合適這樣的平台, 因此在經過很多次的失敗與猶豫, 我還是開始使用 Text Mining 來做 Data Mining.
畢竟真的要分析一件事, 從外面的行為等等的方式雖然是較為簡單, 但有時並沒有切到內容的核心, 雖然這文字的內容, 尤其是中文單單斷詞就是一大挑戰, 雖然現在也有些已經有類似的 API 來使用, 但如同前面所說的, 大量運算要靠 API 本質就是個大問題.
加上行為是個很精確的事, 我們是要目前既有行為之外的未來行為, 模式都是可以收束的, 但內容的精神確是在字裏行間, 在字句之間, 要去了解, 是越研究範圍越廣及越模糊, 反而更難收束, 這反而是個大問題.
再接下來的幾篇, 我會介紹目前我已經做過的或做出來有關 Text Mining 的成果, 當然這只是現在, 若有機會我也來多講一些理論基礎, 但只怕大家又要睡著了 (應該說直接跳過).