iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

用R語言玩轉文字探勘 系列

用R語言玩轉文字探勘

鐵人鍊成 | 共 30 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 11

[Day 11] 以R語言分詞 - 在R語言中使用ckip

利用R語言分詞 在R語言中使用ckip 接下來,我們特別花一個小節介紹如何在R語言中使用由中研院開發的一系列斷詞工具「CKIP」。根據中研院介紹,這個工具可以斷...

2023-09-26 ‧ 由 rlover 分享
DAY 12

[Day 12] R語言中的文件資料結構

文件資料結構 文件資料結構介紹 這個章節會相對抽象一些。若你只是單純處理「文字資料」,例如選舉資料中的候選人欄位用 character 儲存,就比較不會遇上這個...

2023-09-27 ‧ 由 rlover 分享
DAY 13

[Day 13] 文字探勘之前要先準備語料

準備語料 取得語料的方式 {getting-corpus} 做文字探勘之前要先有語料,以下介紹幾種取得中文語料的方式。 公開資料 維基百科中文版:維基百科是...

2023-09-28 ‧ 由 rlover 分享
DAY 14

[Day 14] 掌握關鍵技術與概念 - 前篇

技術的脈絡 要學的技術 前面的文章,介紹如何準備文字探勘的原料,接下來的文章,則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點: frequency an...

2023-09-29 ‧ 由 rlover 分享
DAY 15

[Day 15] 掌握關鍵技術與概念 - 後篇

為什麼要學這些技術 content analysis 內容分析是一個分析文本常見的分析方法,平常可能沒什麼機會接觸,但在傳播學院和社會科學院中,時常會在學術研究...

2023-09-30 ‧ 由 rlover 分享
DAY 16

[Day 16] 利用R語言計算詞頻

詞頻 詞頻簡介與案例 詞頻,也就是詞彙出現頻率,是一個非常直觀且易懂的指標。 我們先來看中央社的蔡總統關心什麼文字會說話分析。在這篇文章中,我們擷取幾個句子:「...

2023-10-01 ‧ 由 rlover 分享
DAY 17

[Day 17] 利用R語言找關鍵字

文件關鍵字 關鍵字的重要性 前面先註明一下,本文大幅參考An Evaluation on Feature Selection for Text Clusteri...

2023-10-02 ‧ 由 rlover 分享
DAY 18

[Day 18] 利用R語言找詞彙關係 - bigram篇

詞彙之間的關係 詞彙關係簡介 雖然章節標題用的是詞彙網絡,但我們其實關注的是詞彙之間的關係。前面我們談了最常出現的詞、最重要的詞彙,這個章節則要拉高一個維度,換...

2023-10-03 ‧ 由 rlover 分享
DAY 19

[Day 19] 利用R語言找詞彙關係 - correlation

詞彙關係 - correlation 上面的 bigram 很好懂,它的特點就是簡單且直觀,只要考慮相鄰的詞的關係,而且還能夠保留有順序性的資訊,計算效率也高,...

2023-10-04 ‧ 由 rlover 分享
DAY 20

[Day 20] 利用R語言分析情感

情緒分析 情緒分析介紹 情緒/情感分析(sentiment analysis),簡單來說就是辨別話語中的情感。 最一開始的方式就像把文字拆解成積木,這塊積木是正...

2023-10-05 ‧ 由 rlover 分享