iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 12
0
Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 12

(Day12)jiebaR的分詞引擎設定

  • 分享至 

  • xImage
  •  

來研究一下分詞的作業相關設定

mixseg

預設為混合模型 ( MixSegment )
https://ithelp.ithome.com.tw/upload/images/20171215/20107033Cp75Dx6Qpm.pnghttps://ithelp.ithome.com.tw/upload/images/20171215/20107033sfw1qUiOXk.png
其他的說明

Default Method -> 指分詞引擎 (可調)
Detect Encoding : TRUE -> 確認 Encoding
Default Encoding: UTF-8 -> Encoding 可用 UTF-8
Keep Symbols : FALSE -> 要不要保留標點符號
Output Path -> 輸出路徑 (路徑若有錯,會整個關掉)
Write File (可否寫入) : TRUE
By Lines (按行輸出) : FALSE
Max Word Length (最大字串長度): 20
Max Read Lines (最大行數) : 1e+05

實作一下,可調整的部分,調整方式:

#以調整By Line設定為例
#先指定另一個引擎來測試比較用
mixseg1=worker()
mixseg1$bylines=TRUE #是否按分行處理
new_user_word(mixseg1,'簡單的小情歌',"n") # "n" 是賦於給他的詞性

https://ithelp.ithome.com.tw/upload/images/20171217/201070338sIOyW3A73.png

再來,可以調整停用字集

#調整
mixseg1=worker(stop_word = "/Users/Username/Documents/stop.txt")
mixseg1

要注意執行時檔案的編碼處理
還有檢查一下更改的結果
https://ithelp.ithome.com.tw/upload/images/20171215/20107033Zo36BLguFX.png

看一下結果比較吧!

mixseg["這是一首簡單的小情歌"]
mixseg1["這是一首簡單的小情歌"]

上一篇
(Day11) 用jiebaR做文字探勘吧!
下一篇
(Day13)取出有幫助的分詞資料
系列文
職場老鳥的資料科學初體驗-R語言專案實作紀錄30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言