iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 11
1
Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 11

(Day11) 用jiebaR做文字探勘吧!

針對文字這類非結構化資料,文字探勘是很常見的作業,實作前了解一下先。

非結構資料

根據非結構化資料-MBA智庫百科結構化信息是可以數字化的數據信息,可以方便地通過電腦和資料庫技術進行管理。無法完全數字化的信息稱為非結構化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的信息。現在這類非結構化信息正以成倍的速度增長。

斷詞

  • 中文需要斷詞,英文單字(word/trem)都用空格分開
    • 最大概率法 ( MPSegment )
    • 隱式馬爾科夫模型 ( HMMSegment )
    • 混合模型 ( MixSegment )
    • 索引模型 ( QuerySegment )
      (這部分,找不到合適的文章,能簡易看懂的說明,只好自行整理。)

文字探勘處理套件

  • tm
  • tidy
  • jiebaR(有中文斷詞套件)

jiebaR

  • 核心為簡體中文,後有人提交繁中板
  • 原為python,後有提交R語言專用版
  • 分詞:
    • 提供了四種斷詞模式
      • 最大概率法 ( MPSegment )
      • 隱式馬爾科夫模型 ( HMMSegment )
      • 混合模型 ( MixSegment )
      • 索引模型 ( QuerySegment )
    • 透過worker()進行初始化斷詞引擎
    • 使用segment()進行斷詞
  • 添加自訂自辭典添加自定义词典

實作

先取回第一層議題清單資料
但如果程式前幾篇實作的程式碼,寫在同一份程式碼,本段無須執行喔!

#
#library(httr)
library(xml2)
#
web.url="https://join.gov.tw"
wdpath=paste0(getwd(),"/Documents/GitHub/R_DayOfDataEnginner-2018/")
#[讀取]根據第一層資料,讀出第二層位置 並置入dfl dataframe備用
dfl<-read.csv(paste0(wdpath,"/dscsv/pagelist.csv"))

(Day10) 用jiebaR做文字探勘吧!

安裝jiebaR(結巴)套件 and 叫用

install.packages("jiebaR")
library(jiebaR)

#定義分詞引擎 
mixseg<-worker()

#直接來牛刀小試一下
mixseg["這是一首簡單的小情歌"]

看起來還有點意思!!
https://ithelp.ithome.com.tw/upload/images/20171215/20107033TJQOxeL1Dq.png

明天繼續!

參考文件

jiebaR:


上一篇
(Day10) 爬蟲作業終:爬完所有所需資料!
下一篇
(Day12)jiebaR的分詞引擎設定
系列文
職場老鳥的資料科學初體驗-R語言專案實作紀錄30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言