iT邦幫忙

r語言相關文章
共有 115 則文章
鐵人賽 AI & Data DAY 15
用R語言玩轉文字探勘 系列 第 15

技術 [Day 15] 掌握關鍵技術與概念 - 後篇

為什麼要學這些技術 content analysis 內容分析是一個分析文本常見的分析方法,平常可能沒什麼機會接觸,但在傳播學院和社會科學院中,時常會在學術研究...

鐵人賽 AI & Data DAY 8
用R語言玩轉文字探勘 系列 第 8

技術 [Day 8] 以R語言分詞 - 概念篇

分詞 分詞介紹 在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們...

鐵人賽 AI & Data DAY 7

技術 [Day 7] R語言查看資料型態

介紹了許多資料型態後,不知道大家現在有沒有疑問:假設我們現在手上有多個變數,要怎麼知道這個變數裡儲存了甚麼型態的資料? 今天就要來介紹:怎麼查看變數的資料型...

鐵人賽 AI & Data DAY 17
用R語言玩轉文字探勘 系列 第 17

技術 [Day 17] 利用R語言找關鍵字

文件關鍵字 關鍵字的重要性 前面先註明一下,本文大幅參考An Evaluation on Feature Selection for Text Clusteri...

鐵人賽 AI & Data DAY 30
用R語言玩轉文字探勘 系列 第 30

技術 [Day 30] 用R語言玩轉文字探勘案例 - 視覺化篇

應用案例 - 視覺化篇 我們得到資料後,最後一步就是視覺化了!因為重點是程式碼,所以沒有每張圖片都上傳,可以一張張研究! library(gt) df_yea...

鐵人賽 AI & Data DAY 3

技術 [Day 3] RStudio Package安裝

RStudio的環境就像是一個廚房,接著我們需要選購不同的鍋具來煮不同的菜,就如同根據要處理的數據來安裝特定套件(Package)。 以下會介紹兩種安裝pa...

鐵人賽 AI & Data DAY 5
用R語言玩轉文字探勘 系列 第 5

技術 [Day 5] R語言與正規表達式: 進階語法和實例

進階正規表達式語法 貪婪與非貪婪比對 在R語言中,正規表達式預設(default)會「貪婪」(greedy)地比對。這是什麼意思呢? 舉例來說: str_ext...

鐵人賽 AI & Data DAY 21
用R語言玩轉文字探勘 系列 第 21

技術 [Day 21] 利用R語言分類文本

文本分類 文本分類簡介 你知道電子郵件過濾器是怎麼把垃圾郵件挑出來的嗎?或者當你在社交媒體上發文,系統是如何自動標記你的貼文主題的?答案就是「文本分類」,而且通...

鐵人賽 AI & Data DAY 9
用R語言玩轉文字探勘 系列 第 9

技術 [Day 9] 以R語言分詞 - 預處理 & 使用 tidytext

利用R語言分詞 利用R語言分詞 - 預處理 上面有提到,在斷詞前其實有些任務要先進行,我們結合dplyr和stringr,再搭配其他套件展示具體怎麼做吧! #...

鐵人賽 AI & Data DAY 14
用R語言玩轉文字探勘 系列 第 14

技術 [Day 14] 掌握關鍵技術與概念 - 前篇

技術的脈絡 要學的技術 前面的文章,介紹如何準備文字探勘的原料,接下來的文章,則要討論怎麼探勘、如何分析。前面提過會帶到的幾個重點: frequency an...

鐵人賽 AI & Data DAY 12

技術 [Day 12] R語言dplyr套件介紹(2)

昨天已經介紹dplyr套件中基本且常用的函數,如:select()、filter()...,今天要來介紹另一個常用的函數summarise(),summaris...

鐵人賽 AI & Data DAY 22
用R語言玩轉文字探勘 系列 第 22

技術 [Day 22] 利用R語言做出主題模型 - LDA

主題模型 主題模型簡介 前面介紹不同類型的技術,例如從文本中找關鍵字、查看文本中詞彙之間的關係,還有判斷文字的情感,今天我們換個情境。 如果我們有一堆新聞文章,...

鐵人賽 AI & Data DAY 19
用R語言玩轉文字探勘 系列 第 19

技術 [Day 19] 利用R語言找詞彙關係 - correlation

詞彙關係 - correlation 上面的 bigram 很好懂,它的特點就是簡單且直觀,只要考慮相鄰的詞的關係,而且還能夠保留有順序性的資訊,計算效率也高,...

鐵人賽 AI & Data DAY 15

技術 [Day 15] 資料分析-常用的統計圖表(1)

在資料分析中,我們常會針對手上的資料做視覺化呈現,快速讓大家對資料有進一步認識,也是讓大家瞭解資料最直觀的方法 不同的資料屬性通常會有各自適合的呈現方式,接...

鐵人賽 AI & Data DAY 3
用R語言玩轉文字探勘 系列 第 3

技術 [Day 3] 使用R語言的文字探勘框架 - quanteda

背景 續前一篇文章,我們談了如何利用tidytext處理「歷年總統國慶大會演說」資料,這篇文章我們同樣會利用相同資料,只是從tidytext改成使用quante...

鐵人賽 AI & Data DAY 27
用R語言玩轉文字探勘 系列 第 27

技術 [Day 27] 用R語言玩轉文字探勘案例 - 架構與資料準備篇

文字探勘應用案例 應用案例 - 總統國慶致詞 我們來運用前面的技術來個應用案例,廢話不多說直接開始。 這次步驟有幾個:從維基文庫利用爬蟲爬下資料 -> 清...

鐵人賽 AI & Data DAY 16
用R語言玩轉文字探勘 系列 第 16

技術 [Day 16] 利用R語言計算詞頻

詞頻 詞頻簡介與案例 詞頻,也就是詞彙出現頻率,是一個非常直觀且易懂的指標。 我們先來看中央社的蔡總統關心什麼文字會說話分析。在這篇文章中,我們擷取幾個句子:「...

鐵人賽 AI & Data DAY 28
用R語言玩轉文字探勘 系列 第 28

技術 [Day 28] 用R語言玩轉文字探勘案例 - 清資料與斷詞篇

文字探勘應用案例 應用案例 - 清資料與斷詞 我們來看要如何處理爬下的資料吧! 這次我們會應用最近正在風口浪尖的中研院ckip小組開發出的斷詞系統,所以開始時要...

鐵人賽 AI & Data DAY 8

技術 [Day 8] R語言文字處理

了解如何查看資料型態後,接著會開始針對各種資料型態在資料分析中常見的處理做介紹。首先,就先來講講字串(string)的處理吧! 字串的切割和合併切割可以使用s...

鐵人賽 AI & Data DAY 16

技術 [Day 16] 資料分析-常用的統計圖表(2)

本篇要來講解更多在資料分析上常用的圖表,包含:折線圖、散佈圖、盒鬚圖。 折線圖: 用來觀察趨勢變化 舉例: 各月銷售量變化,可以發現7~9月是旺季,而1~...

鐵人賽 AI & Data DAY 29
用R語言玩轉文字探勘 系列 第 29

技術 [Day 29] 用R語言玩轉文字探勘案例 - 分析篇

文字探勘應用案例 應用案例 - 分析篇 在分析前,我們要討論的是「具體要分析什麼」,這是每次分析資料以前,要先問的問題。當然你也可以先做個EDA觀察資料,但在一...

鐵人賽 AI & Data DAY 5

技術 [Day 5] R語言資料型態(1)

資料型態(DataType)是學習新語言必備的,而R語言中也包含多種資料型態,今天我們就先從簡單的介紹起。首先,簡單且常用的資料型態有character, nu...

鐵人賽 AI & Data DAY 26
用R語言玩轉文字探勘 系列 第 26

技術 [Day 26] 利用R語言跑詞嵌入模型 - cbow 與測試

詞嵌入模型 詞嵌入模型 - CBOW CBOW(Continuous Bag-of-Words)是 word2vec 裡另一個演算法,CBOW 和 Skip-g...

鐵人賽 AI & Data DAY 6

技術 [Day 6] R語言資料型態(2)

上一篇帶大家認識一些基礎的資料型態,例如:character, numeric,接著今天要介紹另外三種比較複雜的資料型態: list是一種類似vector的資...

鐵人賽 AI & Data DAY 24
用R語言玩轉文字探勘 系列 第 24

技術 [Day 24] 利用R語言做出主題模型 - intrusion test

主題模型 主題模型 - 評估 我們前面展示如何分別利用STM和LDA建構主題模型,要得到夠好的主題模型,我們有些事情可以做。先來介紹測試方法。具體可以參考這篇文...