(Day11) 用jiebaR做文字探勘吧!

2018 iT 邦幫忙鐵人賽

DAY 11

Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列第 11 篇

2018鐵人賽

Kimi0

2017-12-15 17:04:50

13157 瀏覽

分享至

針對文字這類非結構化資料，文字探勘是很常見的作業，實作前了解一下先。

非結構資料

根據非結構化資料-MBA智庫百科結構化信息是可以數字化的數據信息，可以方便地通過電腦和資料庫技術進行管理。無法完全數字化的信息稱為非結構化信息，如文檔文件、圖片、圖紙資料、縮微膠片等。這些資源中擁有大量的有價值的信息。現在這類非結構化信息正以成倍的速度增長。

斷詞

中文需要斷詞，英文單字(word/trem)都用空格分開
- 最大概率法 ( MPSegment )
- 隱式馬爾科夫模型 ( HMMSegment )
- 混合模型 ( MixSegment )
- 索引模型 ( QuerySegment )
  (這部分，找不到合適的文章，能簡易看懂的說明，只好自行整理。)

文字探勘處理套件

tm
tidy
jiebaR(有中文斷詞套件)

jiebaR

核心為簡體中文，後有人提交繁中板
原為python，後有提交R語言專用版
分詞:
- 提供了四種斷詞模式
  - 最大概率法 ( MPSegment )
  - 隱式馬爾科夫模型 ( HMMSegment )
  - 混合模型 ( MixSegment )
  - 索引模型 ( QuerySegment )
- 透過worker()進行初始化斷詞引擎
- 使用segment()進行斷詞
添加自訂自辭典添加自定义词典

實作

先取回第一層議題清單資料
但如果程式前幾篇實作的程式碼，寫在同一份程式碼，本段無須執行喔!

#
#library(httr)
library(xml2)
#
web.url="https://join.gov.tw"
wdpath=paste0(getwd(),"/Documents/GitHub/R_DayOfDataEnginner-2018/")
#[讀取]根據第一層資料，讀出第二層位置 並置入dfl dataframe備用
dfl<-read.csv(paste0(wdpath,"/dscsv/pagelist.csv"))

(Day10) 用jiebaR做文字探勘吧!

安裝jiebaR(結巴)套件 and 叫用

install.packages("jiebaR")
library(jiebaR)

#定義分詞引擎 
mixseg<-worker()

#直接來牛刀小試一下
mixseg["這是一首簡單的小情歌"]

看起來還有點意思!!

明天繼續!

參考文件

jiebaR:

(Day10) 爬蟲作業終：爬完所有所需資料！

(Day12)jiebaR的分詞引擎設定

系列文

職場老鳥的資料科學初體驗-R語言專案實作紀錄共 30 篇

RSS系列文訂閱系列文

24 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19831 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 11 篇