iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

用R語言玩轉文字探勘 系列

用R語言玩轉文字探勘

鐵人鍊成 | 共 30 篇文章 | 2 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day 1] 前言 - 用R語言如何玩轉文字探勘

文字探勘簡介 這個系列的文章以文字探勘為主題,會介紹文字探勘的原理、在文字探勘過程中要注意的事情,並以R語言為背景,帶大家實作,而且會有很貼近生活的案例。 文字...

2023-09-16 ‧ 由 rlover 分享
DAY 2

[Day 2] 使用R語言的文字探勘框架 - tidytext

背景 開發者們打造許多套件,替人們處理文字探勘。有些針對特定任務,例如在主題模型章節中我會介紹stm、LDA,在詞向量章節中則以gensim、word2vec為...

2023-09-17 ‧ 由 rlover 分享
DAY 3

[Day 3] 使用R語言的文字探勘框架 - quanteda

背景 續前一篇文章,我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料,這篇文章我們同樣會利用相同資料,只是從tidytext改成使用quante...

2023-09-18 ‧ 由 rlover 分享
DAY 4

[Day 4] R語言與正規表達式: 基本概念

正規表達式 在利用文字探勘技術,完成讓人看完眼睛為之一亮的分析之前,我們要先確保資料集的品質足夠優異,否則只會應驗時常聽到的名言:「garbage in, ga...

2023-09-19 ‧ 由 rlover 分享
DAY 5

[Day 5] R語言與正規表達式: 進階語法和實例

進階正規表達式語法 貪婪與非貪婪比對 在R語言中,正規表達式預設(default)會「貪婪」(greedy)地比對。這是什麼意思呢? 舉例來說: str_ext...

2023-09-20 ‧ 由 rlover 分享
DAY 6

[Day 6] R語言與字串處理: 利用stringr

字串處理情境介紹 文字探勘的諸多應用如情緒分析、文本分類,聽起來都很美好,但在分析資料以前,首先要有乾淨資料。舉例來說,若我們想分析歷屆台灣總統的演講稿,在事前...

2023-09-21 ‧ 由 rlover 分享
DAY 7

[Day 7] R語言中的字串資料、路徑與編碼

R語言中的字串資料 前面章節「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用li...

2023-09-22 ‧ 由 rlover 分享
DAY 8

[Day 8] 以R語言分詞 - 概念篇

分詞 分詞介紹 在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們...

2023-09-23 ‧ 由 rlover 分享
DAY 9

[Day 9] 以R語言分詞 - 預處理 & 使用 tidytext

利用R語言分詞 利用R語言分詞 - 預處理 上面有提到,在斷詞前其實有些任務要先進行,我們結合dplyr和stringr,再搭配其他套件展示具體怎麼做吧! #...

2023-09-24 ‧ 由 rlover 分享
DAY 10

[Day 10] 以R語言分詞 - 使用 quanteda 與 jiebaR

利用R語言分詞 分詞流程 - 利用 quanteda library(quanteda) # Chinese stopwords ch_stop <- q...

2023-09-25 ‧ 由 rlover 分享