文字探勘簡介 這個系列的文章以文字探勘為主題,會介紹文字探勘的原理、在文字探勘過程中要注意的事情,並以R語言為背景,帶大家實作,而且會有很貼近生活的案例。 文字...
背景 開發者們打造許多套件,替人們處理文字探勘。有些針對特定任務,例如在主題模型章節中我會介紹stm、LDA,在詞向量章節中則以gensim、word2vec為...
背景 續前一篇文章,我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料,這篇文章我們同樣會利用相同資料,只是從tidytext改成使用quante...
正規表達式 在利用文字探勘技術,完成讓人看完眼睛為之一亮的分析之前,我們要先確保資料集的品質足夠優異,否則只會應驗時常聽到的名言:「garbage in, ga...
進階正規表達式語法 貪婪與非貪婪比對 在R語言中,正規表達式預設(default)會「貪婪」(greedy)地比對。這是什麼意思呢? 舉例來說: str_ext...
字串處理情境介紹 文字探勘的諸多應用如情緒分析、文本分類,聽起來都很美好,但在分析資料以前,首先要有乾淨資料。舉例來說,若我們想分析歷屆台灣總統的演講稿,在事前...
R語言中的字串資料 前面章節「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用li...
分詞 分詞介紹 在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們...
利用R語言分詞 利用R語言分詞 - 預處理 上面有提到,在斷詞前其實有些任務要先進行,我們結合dplyr和stringr,再搭配其他套件展示具體怎麼做吧! #...
利用R語言分詞 分詞流程 - 利用 quanteda library(quanteda) # Chinese stopwords ch_stop <- q...