針對文字這類非結構化資料,文字探勘是很常見的作業,實作前了解一下先。
根據非結構化資料-MBA智庫百科結構化信息是可以數字化的數據信息,可以方便地通過電腦和資料庫技術進行管理。無法完全數字化的信息稱為非結構化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的信息。現在這類非結構化信息正以成倍的速度增長。
先取回第一層議題清單資料
但如果程式前幾篇實作的程式碼,寫在同一份程式碼,本段無須執行喔!
#
#library(httr)
library(xml2)
#
web.url="https://join.gov.tw"
wdpath=paste0(getwd(),"/Documents/GitHub/R_DayOfDataEnginner-2018/")
#[讀取]根據第一層資料,讀出第二層位置 並置入dfl dataframe備用
dfl<-read.csv(paste0(wdpath,"/dscsv/pagelist.csv"))
(Day10) 用jiebaR做文字探勘吧!
安裝jiebaR(結巴)套件 and 叫用
install.packages("jiebaR")
library(jiebaR)
#定義分詞引擎
mixseg<-worker()
#直接來牛刀小試一下
mixseg["這是一首簡單的小情歌"]
看起來還有點意思!!
明天繼續!
jiebaR: