利用R語言分詞 在R語言中使用ckip 接下來,我們特別花一個小節介紹如何在R語言中使用由中研院開發的一系列斷詞工具「CKIP」。根據中研院介紹,這個工具可以斷...
文件資料結構 文件資料結構介紹 這個章節會相對抽象一些。若你只是單純處理「文字資料」,例如選舉資料中的候選人欄位用 character 儲存,就比較不會遇上這個...
準備語料 取得語料的方式 {getting-corpus} 做文字探勘之前要先有語料,以下介紹幾種取得中文語料的方式。 公開資料 維基百科中文版:維基百科是...
技術的脈絡 要學的技術 前面的文章,介紹如何準備文字探勘的原料,接下來的文章,則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點: frequency an...
為什麼要學這些技術 content analysis 內容分析是一個分析文本常見的分析方法,平常可能沒什麼機會接觸,但在傳播學院和社會科學院中,時常會在學術研究...
詞頻 詞頻簡介與案例 詞頻,也就是詞彙出現頻率,是一個非常直觀且易懂的指標。 我們先來看中央社的蔡總統關心什麼文字會說話分析。在這篇文章中,我們擷取幾個句子:「...
文件關鍵字 關鍵字的重要性 前面先註明一下,本文大幅參考An Evaluation on Feature Selection for Text Clusteri...
詞彙之間的關係 詞彙關係簡介 雖然章節標題用的是詞彙網絡,但我們其實關注的是詞彙之間的關係。前面我們談了最常出現的詞、最重要的詞彙,這個章節則要拉高一個維度,換...
詞彙關係 - correlation 上面的 bigram 很好懂,它的特點就是簡單且直觀,只要考慮相鄰的詞的關係,而且還能夠保留有順序性的資訊,計算效率也高,...
情緒分析 情緒分析介紹 情緒/情感分析(sentiment analysis),簡單來說就是辨別話語中的情感。 最一開始的方式就像把文字拆解成積木,這塊積木是正...