利用R語言分詞 在R語言中使用ckip 接下來,我們特別花一個小節介紹如何在R語言中使用由中研院開發的一系列斷詞工具「CKIP」。根據中研院介紹,這個工具可以斷...
情緒分析 情緒分析介紹 情緒/情感分析(sentiment analysis),簡單來說就是辨別話語中的情感。 最一開始的方式就像把文字拆解成積木,這塊積木是正...
進階正規表達式語法 貪婪與非貪婪比對 在R語言中,正規表達式預設(default)會「貪婪」(greedy)地比對。這是什麼意思呢? 舉例來說: str_ext...
文件資料結構 文件資料結構介紹 這個章節會相對抽象一些。若你只是單純處理「文字資料」,例如選舉資料中的候選人欄位用 character 儲存,就比較不會遇上這個...
背景 續前一篇文章,我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料,這篇文章我們同樣會利用相同資料,只是從tidytext改成使用quante...
詞嵌入模型 詞嵌入模型簡介 想像一下,你有一堆文字,比如說一篇文章、一個推文或一個評論。你的目標是讓電腦理解這些文字中的意義或情感,但問題是,電腦不懂語言,它只...
應用案例 - 視覺化篇 我們得到資料後,最後一步就是視覺化了!因為重點是程式碼,所以沒有每張圖片都上傳,可以一張張研究! library(gt) df_yea...
為什麼要學這些技術 content analysis 內容分析是一個分析文本常見的分析方法,平常可能沒什麼機會接觸,但在傳播學院和社會科學院中,時常會在學術研究...
分詞 分詞介紹 在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們...
文本分類 文本分類簡介 你知道電子郵件過濾器是怎麼把垃圾郵件挑出來的嗎?或者當你在社交媒體上發文,系統是如何自動標記你的貼文主題的?答案就是「文本分類」,而且通...
詞彙之間的關係 詞彙關係簡介 雖然章節標題用的是詞彙網絡,但我們其實關注的是詞彙之間的關係。前面我們談了最常出現的詞、最重要的詞彙,這個章節則要拉高一個維度,換...
主題模型 主題模型簡介 前面介紹不同類型的技術,例如從文本中找關鍵字、查看文本中詞彙之間的關係,還有判斷文字的情感,今天我們換個情境。 如果我們有一堆新聞文章,...
準備語料 取得語料的方式 {getting-corpus} 做文字探勘之前要先有語料,以下介紹幾種取得中文語料的方式。 公開資料 維基百科中文版:維基百科是...
文件關鍵字 關鍵字的重要性 前面先註明一下,本文大幅參考An Evaluation on Feature Selection for Text Clusteri...
技術的脈絡 要學的技術 前面的文章,介紹如何準備文字探勘的原料,接下來的文章,則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點: frequency an...
文字探勘應用案例 應用案例 - 清資料與斷詞 我們來看要如何處理爬下的資料吧! 這次我們會應用最近正在風口浪尖的中研院ckip小組開發出的斷詞系統,所以開始時要...
詞頻 詞頻簡介與案例 詞頻,也就是詞彙出現頻率,是一個非常直觀且易懂的指標。 我們先來看中央社的蔡總統關心什麼文字會說話分析。在這篇文章中,我們擷取幾個句子:「...
詞嵌入模型 詞嵌入模型 - CBOW CBOW(Continuous Bag-of-Words)是 word2vec 裡另一個演算法,CBOW 和 Skip-g...
文字探勘應用案例 應用案例 - 分析篇 在分析前,我們要討論的是「具體要分析什麼」,這是每次分析資料以前,要先問的問題。當然你也可以先做個EDA觀察資料,但在一...
主題模型 主題模型 - 評估 我們前面展示如何分別利用STM和LDA建構主題模型,要得到夠好的主題模型,我們有些事情可以做。先來介紹測試方法。具體可以參考這篇文...
詞彙關係 - correlation 上面的 bigram 很好懂,它的特點就是簡單且直觀,只要考慮相鄰的詞的關係,而且還能夠保留有順序性的資訊,計算效率也高,...