iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

0 Like 0 留言 260 瀏覽

鐵人賽 AI & Data DAY 11

用R語言玩轉文字探勘系列第 11 篇

技術 [Day 11] 以R語言分詞 - 在R語言中使用ckip

利用R語言分詞在R語言中使用ckip 接下來，我們特別花一個小節介紹如何在R語言中使用由中研院開發的一系列斷詞工具「CKIP」。根據中研院介紹，這個工具可以斷...

rlover ‧ 2023-09-26

0 Like 0 留言 255 瀏覽

鐵人賽 AI & Data DAY 20

用R語言玩轉文字探勘系列第 20 篇

技術 [Day 20] 利用R語言分析情感

情緒分析情緒分析介紹情緒／情感分析（sentiment analysis），簡單來說就是辨別話語中的情感。最一開始的方式就像把文字拆解成積木，這塊積木是正...

rlover ‧ 2023-10-05

0 Like 0 留言 253 瀏覽

鐵人賽 AI & Data DAY 5

用R語言玩轉文字探勘系列第 5 篇

技術 [Day 5] R語言與正規表達式: 進階語法和實例

進階正規表達式語法貪婪與非貪婪比對在R語言中，正規表達式預設（default）會「貪婪」（greedy）地比對。這是什麼意思呢？舉例來說： str_ext...

rlover ‧ 2023-09-20

0 Like 0 留言 243 瀏覽

鐵人賽 AI & Data DAY 12

用R語言玩轉文字探勘系列第 12 篇

技術 [Day 12] R語言中的文件資料結構

文件資料結構文件資料結構介紹這個章節會相對抽象一些。若你只是單純處理「文字資料」，例如選舉資料中的候選人欄位用 character 儲存，就比較不會遇上這個...

rlover ‧ 2023-09-27

0 Like 0 留言 234 瀏覽

鐵人賽 AI & Data DAY 3

用R語言玩轉文字探勘系列第 3 篇

技術 [Day 3] 使用R語言的文字探勘框架 - quanteda

背景續前一篇文章，我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料，這篇文章我們同樣會利用相同資料，只是從tidytext改成使用quante...

rlover ‧ 2023-09-18

0 Like 0 留言 232 瀏覽

鐵人賽 AI & Data DAY 25

用R語言玩轉文字探勘系列第 25 篇

技術 [Day 25] 利用R語言跑詞嵌入模型 - 原理與 skipgram

詞嵌入模型詞嵌入模型簡介想像一下，你有一堆文字，比如說一篇文章、一個推文或一個評論。你的目標是讓電腦理解這些文字中的意義或情感，但問題是，電腦不懂語言，它只...

rlover ‧ 2023-10-10

0 Like 0 留言 225 瀏覽

鐵人賽 AI & Data DAY 30

用R語言玩轉文字探勘系列第 30 篇

技術 [Day 30] 用R語言玩轉文字探勘案例 - 視覺化篇

應用案例 - 視覺化篇我們得到資料後，最後一步就是視覺化了！因為重點是程式碼，所以沒有每張圖片都上傳，可以一張張研究！ library(gt) df_yea...

rlover ‧ 2023-10-15

0 Like 0 留言 223 瀏覽

鐵人賽 AI & Data DAY 15

用R語言玩轉文字探勘系列第 15 篇

技術 [Day 15] 掌握關鍵技術與概念 - 後篇

為什麼要學這些技術 content analysis 內容分析是一個分析文本常見的分析方法，平常可能沒什麼機會接觸，但在傳播學院和社會科學院中，時常會在學術研究...

rlover ‧ 2023-09-30

0 Like 0 留言 218 瀏覽

鐵人賽 AI & Data DAY 8

用R語言玩轉文字探勘系列第 8 篇

技術 [Day 8] 以R語言分詞 - 概念篇

分詞分詞介紹在現今的資訊時代，文字資料無所不在，從社交媒體、新聞報導到學術研究，文字都是我們最主要的資訊來源。然而，要讓電腦能夠理解並處理這些文字資料，我們...

rlover ‧ 2023-09-23

0 Like 0 留言 215 瀏覽

鐵人賽 AI & Data DAY 21

用R語言玩轉文字探勘系列第 21 篇

技術 [Day 21] 利用R語言分類文本

文本分類文本分類簡介你知道電子郵件過濾器是怎麼把垃圾郵件挑出來的嗎？或者當你在社交媒體上發文，系統是如何自動標記你的貼文主題的？答案就是「文本分類」，而且通...

rlover ‧ 2023-10-06

0 Like 0 留言 214 瀏覽

鐵人賽 AI & Data DAY 18

用R語言玩轉文字探勘系列第 18 篇

技術 [Day 18] 利用R語言找詞彙關係 - bigram篇

詞彙之間的關係詞彙關係簡介雖然章節標題用的是詞彙網絡，但我們其實關注的是詞彙之間的關係。前面我們談了最常出現的詞、最重要的詞彙，這個章節則要拉高一個維度，換...

rlover ‧ 2023-10-03

0 Like 0 留言 213 瀏覽

鐵人賽 AI & Data DAY 22

用R語言玩轉文字探勘系列第 22 篇

技術 [Day 22] 利用R語言做出主題模型 - LDA

主題模型主題模型簡介前面介紹不同類型的技術，例如從文本中找關鍵字、查看文本中詞彙之間的關係，還有判斷文字的情感，今天我們換個情境。如果我們有一堆新聞文章，...

rlover ‧ 2023-10-07

0 Like 0 留言 202 瀏覽

鐵人賽 AI & Data DAY 13

用R語言玩轉文字探勘系列第 13 篇

技術 [Day 13] 文字探勘之前要先準備語料

準備語料取得語料的方式 {getting-corpus} 做文字探勘之前要先有語料，以下介紹幾種取得中文語料的方式。公開資料維基百科中文版：維基百科是...

rlover ‧ 2023-09-28

0 Like 0 留言 179 瀏覽

鐵人賽 AI & Data DAY 17

用R語言玩轉文字探勘系列第 17 篇

技術 [Day 17] 利用R語言找關鍵字

文件關鍵字關鍵字的重要性前面先註明一下，本文大幅參考An Evaluation on Feature Selection for Text Clusteri...

rlover ‧ 2023-10-02

0 Like 0 留言 172 瀏覽

鐵人賽 AI & Data DAY 14

用R語言玩轉文字探勘系列第 14 篇

技術 [Day 14] 掌握關鍵技術與概念 - 前篇

技術的脈絡要學的技術前面的文章，介紹如何準備文字探勘的原料，接下來的文章，則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點： frequency an...

rlover ‧ 2023-09-29

0 Like 0 留言 171 瀏覽

鐵人賽 AI & Data DAY 28

用R語言玩轉文字探勘系列第 28 篇

技術 [Day 28] 用R語言玩轉文字探勘案例 - 清資料與斷詞篇

文字探勘應用案例應用案例 - 清資料與斷詞我們來看要如何處理爬下的資料吧！這次我們會應用最近正在風口浪尖的中研院ckip小組開發出的斷詞系統，所以開始時要...

rlover ‧ 2023-10-13

0 Like 0 留言 160 瀏覽

鐵人賽 AI & Data DAY 16

用R語言玩轉文字探勘系列第 16 篇

技術 [Day 16] 利用R語言計算詞頻

詞頻詞頻簡介與案例詞頻，也就是詞彙出現頻率，是一個非常直觀且易懂的指標。我們先來看中央社的蔡總統關心什麼文字會說話分析。在這篇文章中，我們擷取幾個句子：「...

rlover ‧ 2023-10-01

0 Like 0 留言 149 瀏覽

鐵人賽 AI & Data DAY 26

用R語言玩轉文字探勘系列第 26 篇

技術 [Day 26] 利用R語言跑詞嵌入模型 - cbow 與測試

詞嵌入模型詞嵌入模型 - CBOW CBOW（Continuous Bag-of-Words）是 word2vec 裡另一個演算法，CBOW 和 Skip-g...

rlover ‧ 2023-10-11

0 Like 0 留言 146 瀏覽

鐵人賽 AI & Data DAY 29

用R語言玩轉文字探勘系列第 29 篇

技術 [Day 29] 用R語言玩轉文字探勘案例 - 分析篇

文字探勘應用案例應用案例 - 分析篇在分析前，我們要討論的是「具體要分析什麼」，這是每次分析資料以前，要先問的問題。當然你也可以先做個EDA觀察資料，但在一...

rlover ‧ 2023-10-14

0 Like 0 留言 143 瀏覽

鐵人賽 AI & Data DAY 24

用R語言玩轉文字探勘系列第 24 篇

技術 [Day 24] 利用R語言做出主題模型 - intrusion test

主題模型主題模型 - 評估我們前面展示如何分別利用STM和LDA建構主題模型，要得到夠好的主題模型，我們有些事情可以做。先來介紹測試方法。具體可以參考這篇文...

rlover ‧ 2023-10-09

0 Like 0 留言 124 瀏覽

鐵人賽 AI & Data DAY 19

用R語言玩轉文字探勘系列第 19 篇

技術 [Day 19] 利用R語言找詞彙關係 - correlation

詞彙關係 - correlation 上面的 bigram 很好懂，它的特點就是簡單且直觀，只要考慮相鄰的詞的關係，而且還能夠保留有順序性的資訊，計算效率也高，...

rlover ‧ 2023-10-04