iT邦幫忙

文字探勘相關文章
共有 35 則文章
鐵人賽 開發鐵人 DAY 27

技術 關鍵字分析(Text Mining)/貘的資料探勘30講

在上上篇提到無模型預測是我認為值得寫成論文但沒寫成論文的創作, 倒是有幾個作品都被寫成論文, 倒是都不是我的, 而另一個我認為很值的寫的就是在關鍵字分析中的一項...

鐵人賽 開發鐵人 DAY 30

技術 Data Mining 的未來與狂想/貘的資料探勘30講

話說甚麼是 Data Mining 這新名詞, 事實上在系統的觀點就是如何利用電腦與網路讓人的生活過得更好, 而用甚麼技術不是那麼重要. 某位大師說過, 人工智...

鐵人賽 開發鐵人 DAY 15

技術 文字探勘/貘的資料探勘30講

文字探勘 Text Mining 嚴格說不見得算是 Data Mining 的一支, 因為資料探勘都是在內容之外, 行為, 後設以及數字性很高的一種模型, 而文...

鐵人賽 開發鐵人 DAY 29

技術 Data Mining 的可能性/貘的資料探勘30講

在許多 "專家" 認為, Web 3.0 將會是個 Semantic Web 技術已經成熟並應用在許多網站上的未來, 這個語意網路, 在部份...

鐵人賽 AI & Data DAY 16
人工智慧 vs.工人智慧 系列 第 16

技術 Day 16: 電腦也要懂妳

在前面一直提到我們得到的 PTT 文章都是文字呈現,那怎麼讓電腦也看得懂呢?因為最終的計算是個兩類別的分類問題,所以這邊我們把所有的文章轉成數值,也就是每一篇文...

鐵人賽 AI & Data DAY 7
用R語言玩轉文字探勘 系列 第 7

技術 [Day 7] R語言中的字串資料、路徑與編碼

R語言中的字串資料 前面章節「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用li...

鐵人賽 AI & Data DAY 1
用R語言玩轉文字探勘 系列 第 1

技術 [Day 1] 前言 - 用R語言如何玩轉文字探勘

文字探勘簡介 這個系列的文章以文字探勘為主題,會介紹文字探勘的原理、在文字探勘過程中要注意的事情,並以R語言為背景,帶大家實作,而且會有很貼近生活的案例。 文字...

鐵人賽 AI & Data DAY 2
用R語言玩轉文字探勘 系列 第 2

技術 [Day 2] 使用R語言的文字探勘框架 - tidytext

背景 開發者們打造許多套件,替人們處理文字探勘。有些針對特定任務,例如在主題模型章節中我會介紹stm、LDA,在詞向量章節中則以gensim、word2vec為...

鐵人賽 AI & Data DAY 4
用R語言玩轉文字探勘 系列 第 4

技術 [Day 4] R語言與正規表達式: 基本概念

正規表達式 在利用文字探勘技術,完成讓人看完眼睛為之一亮的分析之前,我們要先確保資料集的品質足夠優異,否則只會應驗時常聽到的名言:「garbage in, ga...

鐵人賽 AI & Data DAY 23
用R語言玩轉文字探勘 系列 第 23

技術 [Day 23] 利用R語言做出主題模型 - STM

主題模型 主題模型比較 前一篇介紹如何用 LDA 的 R 程式碼,製作主題模型,這篇文章則要展示如何利用變化版的 STM。 想像一下,LDA 就像是一個喜歡「貼...

鐵人賽 AI & Data DAY 10
用R語言玩轉文字探勘 系列 第 10

技術 [Day 10] 以R語言分詞 - 使用 quanteda 與 jiebaR

利用R語言分詞 分詞流程 - 利用 quanteda library(quanteda) # Chinese stopwords ch_stop <- q...

鐵人賽 AI & Data DAY 6
用R語言玩轉文字探勘 系列 第 6

技術 [Day 6] R語言與字串處理: 利用stringr

字串處理情境介紹 文字探勘的諸多應用如情緒分析、文本分類,聽起來都很美好,但在分析資料以前,首先要有乾淨資料。舉例來說,若我們想分析歷屆台灣總統的演講稿,在事前...

鐵人賽 AI & Data DAY 25
用R語言玩轉文字探勘 系列 第 25

技術 [Day 25] 利用R語言跑詞嵌入模型 - 原理與 skipgram

詞嵌入模型 詞嵌入模型簡介 想像一下,你有一堆文字,比如說一篇文章、一個推文或一個評論。你的目標是讓電腦理解這些文字中的意義或情感,但問題是,電腦不懂語言,它只...

鐵人賽 AI & Data DAY 11
用R語言玩轉文字探勘 系列 第 11

技術 [Day 11] 以R語言分詞 - 在R語言中使用ckip

利用R語言分詞 在R語言中使用ckip 接下來,我們特別花一個小節介紹如何在R語言中使用由中研院開發的一系列斷詞工具「CKIP」。根據中研院介紹,這個工具可以斷...

鐵人賽 AI & Data DAY 9
用R語言玩轉文字探勘 系列 第 9

技術 [Day 9] 以R語言分詞 - 預處理 & 使用 tidytext

利用R語言分詞 利用R語言分詞 - 預處理 上面有提到,在斷詞前其實有些任務要先進行,我們結合dplyr和stringr,再搭配其他套件展示具體怎麼做吧! #...

鐵人賽 AI & Data DAY 8
用R語言玩轉文字探勘 系列 第 8

技術 [Day 8] 以R語言分詞 - 概念篇

分詞 分詞介紹 在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們...

鐵人賽 AI & Data DAY 20
用R語言玩轉文字探勘 系列 第 20

技術 [Day 20] 利用R語言分析情感

情緒分析 情緒分析介紹 情緒/情感分析(sentiment analysis),簡單來說就是辨別話語中的情感。 最一開始的方式就像把文字拆解成積木,這塊積木是正...

鐵人賽 AI & Data DAY 12
用R語言玩轉文字探勘 系列 第 12

技術 [Day 12] R語言中的文件資料結構

文件資料結構 文件資料結構介紹 這個章節會相對抽象一些。若你只是單純處理「文字資料」,例如選舉資料中的候選人欄位用 character 儲存,就比較不會遇上這個...

鐵人賽 AI & Data DAY 5
用R語言玩轉文字探勘 系列 第 5

技術 [Day 5] R語言與正規表達式: 進階語法和實例

進階正規表達式語法 貪婪與非貪婪比對 在R語言中,正規表達式預設(default)會「貪婪」(greedy)地比對。這是什麼意思呢? 舉例來說: str_ext...

鐵人賽 AI & Data DAY 30
用R語言玩轉文字探勘 系列 第 30

技術 [Day 30] 用R語言玩轉文字探勘案例 - 視覺化篇

應用案例 - 視覺化篇 我們得到資料後,最後一步就是視覺化了!因為重點是程式碼,所以沒有每張圖片都上傳,可以一張張研究! library(gt) df_yea...

鐵人賽 AI & Data DAY 15
用R語言玩轉文字探勘 系列 第 15

技術 [Day 15] 掌握關鍵技術與概念 - 後篇

為什麼要學這些技術 content analysis 內容分析是一個分析文本常見的分析方法,平常可能沒什麼機會接觸,但在傳播學院和社會科學院中,時常會在學術研究...

鐵人賽 AI & Data DAY 13
用R語言玩轉文字探勘 系列 第 13

技術 [Day 13] 文字探勘之前要先準備語料

準備語料 取得語料的方式 {getting-corpus} 做文字探勘之前要先有語料,以下介紹幾種取得中文語料的方式。 公開資料 維基百科中文版:維基百科是...

鐵人賽 AI & Data DAY 27
用R語言玩轉文字探勘 系列 第 27

技術 [Day 27] 用R語言玩轉文字探勘案例 - 架構與資料準備篇

文字探勘應用案例 應用案例 - 總統國慶致詞 我們來運用前面的技術來個應用案例,廢話不多說直接開始。 這次步驟有幾個:從維基文庫利用爬蟲爬下資料 -> 清...

鐵人賽 AI & Data DAY 3
用R語言玩轉文字探勘 系列 第 3

技術 [Day 3] 使用R語言的文字探勘框架 - quanteda

背景 續前一篇文章,我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料,這篇文章我們同樣會利用相同資料,只是從tidytext改成使用quante...

鐵人賽 AI & Data DAY 21
用R語言玩轉文字探勘 系列 第 21

技術 [Day 21] 利用R語言分類文本

文本分類 文本分類簡介 你知道電子郵件過濾器是怎麼把垃圾郵件挑出來的嗎?或者當你在社交媒體上發文,系統是如何自動標記你的貼文主題的?答案就是「文本分類」,而且通...

鐵人賽 AI & Data DAY 22
用R語言玩轉文字探勘 系列 第 22

技術 [Day 22] 利用R語言做出主題模型 - LDA

主題模型 主題模型簡介 前面介紹不同類型的技術,例如從文本中找關鍵字、查看文本中詞彙之間的關係,還有判斷文字的情感,今天我們換個情境。 如果我們有一堆新聞文章,...

鐵人賽 AI & Data DAY 17
用R語言玩轉文字探勘 系列 第 17

技術 [Day 17] 利用R語言找關鍵字

文件關鍵字 關鍵字的重要性 前面先註明一下,本文大幅參考An Evaluation on Feature Selection for Text Clusteri...

鐵人賽 AI & Data DAY 18
用R語言玩轉文字探勘 系列 第 18

技術 [Day 18] 利用R語言找詞彙關係 - bigram篇

詞彙之間的關係 詞彙關係簡介 雖然章節標題用的是詞彙網絡,但我們其實關注的是詞彙之間的關係。前面我們談了最常出現的詞、最重要的詞彙,這個章節則要拉高一個維度,換...

鐵人賽 AI & Data DAY 16
用R語言玩轉文字探勘 系列 第 16

技術 [Day 16] 利用R語言計算詞頻

詞頻 詞頻簡介與案例 詞頻,也就是詞彙出現頻率,是一個非常直觀且易懂的指標。 我們先來看中央社的蔡總統關心什麼文字會說話分析。在這篇文章中,我們擷取幾個句子:「...

鐵人賽 AI & Data DAY 14
用R語言玩轉文字探勘 系列 第 14

技術 [Day 14] 掌握關鍵技術與概念 - 前篇

技術的脈絡 要學的技術 前面的文章,介紹如何準備文字探勘的原料,接下來的文章,則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點: frequency an...