用R語言玩轉文字探勘 :: 2023 iThome 鐵人賽

rlover (rlover)

iT邦新手 5 級 ‧ 點數 160

6705

累計瀏覽數

1人

在追蹤

站內簡訊追蹤

鐵人檔案

2023 iThome 鐵人賽

回列表

AI & Data

用R語言玩轉文字探勘系列

用R語言玩轉文字探勘

鐵人鍊成｜共 30 篇文章｜ 2 人訂閱訂閱系列文 RSS系列文

1 Like 0 留言 1554 瀏覽

DAY 1

[Day 1] 前言 - 用R語言如何玩轉文字探勘

文字探勘簡介這個系列的文章以文字探勘為主題，會介紹文字探勘的原理、在文字探勘過程中要注意的事情，並以R語言為背景，帶大家實作，而且會有很貼近生活的案例。文字...

2023-09-16 ‧ 由 rlover 分享

0 Like 0 留言 1481 瀏覽

DAY 2

[Day 2] 使用R語言的文字探勘框架 - tidytext

背景開發者們打造許多套件，替人們處理文字探勘。有些針對特定任務，例如在主題模型章節中我會介紹stm、LDA，在詞向量章節中則以gensim、word2vec為...

2023-09-17 ‧ 由 rlover 分享

0 Like 0 留言 820 瀏覽

DAY 3

[Day 3] 使用R語言的文字探勘框架 - quanteda

背景續前一篇文章，我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料，這篇文章我們同樣會利用相同資料，只是從tidytext改成使用quante...

2023-09-18 ‧ 由 rlover 分享

0 Like 0 留言 1448 瀏覽

DAY 4

[Day 4] R語言與正規表達式: 基本概念

正規表達式在利用文字探勘技術，完成讓人看完眼睛為之一亮的分析之前，我們要先確保資料集的品質足夠優異，否則只會應驗時常聽到的名言：「garbage in, ga...

2023-09-19 ‧ 由 rlover 分享

0 Like 0 留言 940 瀏覽

DAY 5

[Day 5] R語言與正規表達式: 進階語法和實例

進階正規表達式語法貪婪與非貪婪比對在R語言中，正規表達式預設（default）會「貪婪」（greedy）地比對。這是什麼意思呢？舉例來說： str_ext...

2023-09-20 ‧ 由 rlover 分享

0 Like 0 留言 1098 瀏覽

DAY 6

[Day 6] R語言與字串處理: 利用stringr

字串處理情境介紹文字探勘的諸多應用如情緒分析、文本分類，聽起來都很美好，但在分析資料以前，首先要有乾淨資料。舉例來說，若我們想分析歷屆台灣總統的演講稿，在事前...

2023-09-21 ‧ 由 rlover 分享

0 Like 0 留言 1461 瀏覽

DAY 7

[Day 7] R語言中的字串資料、路徑與編碼

R語言中的字串資料前面章節「總統演說」的範例中，能看到R語言中常見的文字資料格式，要不是儲存在dataframe中，每筆資料都是文章、段落、句子，或者是用li...

2023-09-22 ‧ 由 rlover 分享

0 Like 0 留言 1006 瀏覽

DAY 8

[Day 8] 以R語言分詞 - 概念篇

分詞分詞介紹在現今的資訊時代，文字資料無所不在，從社交媒體、新聞報導到學術研究，文字都是我們最主要的資訊來源。然而，要讓電腦能夠理解並處理這些文字資料，我們...

2023-09-23 ‧ 由 rlover 分享

0 Like 0 留言 871 瀏覽

DAY 9

[Day 9] 以R語言分詞 - 預處理 & 使用 tidytext

利用R語言分詞利用R語言分詞 - 預處理上面有提到，在斷詞前其實有些任務要先進行，我們結合dplyr和stringr，再搭配其他套件展示具體怎麼做吧！ #...

2023-09-24 ‧ 由 rlover 分享

0 Like 1 留言 1067 瀏覽

DAY 10

[Day 10] 以R語言分詞 - 使用 quanteda 與 jiebaR

利用R語言分詞分詞流程 - 利用 quanteda library(quanteda) # Chinese stopwords ch_stop <- q...

2023-09-25 ‧ 由 rlover 分享

rlover的鐵人檔案

rlover的收藏

rlover的追蹤

rlover的Like

rlover的紀錄

rlover的訂閱列表

鐵人檔案

用R語言玩轉文字探勘 系列

標記使用者

用R語言玩轉文字探勘系列