(Day12)jiebaR的分詞引擎設定

2018 iT 邦幫忙鐵人賽

DAY 12

Data Technology

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列第 12 篇

2018鐵人賽

Kimi0

2017-12-16 10:36:09

3717 瀏覽

分享至

來研究一下分詞的作業相關設定

mixseg

預設為混合模型 ( MixSegment )

其他的說明

Default Method -> 指分詞引擎 (可調)
Detect Encoding : TRUE -> 確認 Encoding
Default Encoding: UTF-8 -> Encoding 可用 UTF-8
Keep Symbols : FALSE -> 要不要保留標點符號
Output Path -> 輸出路徑 (路徑若有錯，會整個關掉)
Write File (可否寫入) : TRUE
By Lines (按行輸出) : FALSE
Max Word Length (最大字串長度): 20
Max Read Lines (最大行數) : 1e+05

實作一下，可調整的部分，調整方式:

#以調整By Line設定為例
#先指定另一個引擎來測試比較用
mixseg1=worker()
mixseg1$bylines=TRUE #是否按分行處理
new_user_word(mixseg1,'簡單的小情歌',"n") # "n" 是賦於給他的詞性

再來，可以調整停用字集

＃調整
mixseg1=worker(stop_word = "/Users/Username/Documents/stop.txt")
mixseg1

要注意執行時檔案的編碼處理
還有檢查一下更改的結果

看一下結果比較吧！

mixseg["這是一首簡單的小情歌"]
mixseg1["這是一首簡單的小情歌"]

(Day11) 用jiebaR做文字探勘吧!

(Day13)取出有幫助的分詞資料

系列文

職場老鳥的資料科學初體驗-R語言專案實作紀錄共 30 篇

RSS系列文訂閱系列文

24 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列 第 12 篇

(Day12)jiebaR的分詞引擎設定

尚未有邦友留言

標記使用者

職場老鳥的資料科學初體驗-R語言專案實作紀錄系列第 12 篇