>>> seg_list = jieba.cut("垃圾不分藍綠", cut_all=True)
>>> print("Full Mode: " + "/ ".join(seg_list)) # 全模式
>>> seg_list = jieba.cut("垃圾不分藍綠", cut_all=False)
>>> print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
>>> seg_list = jieba.cut("我送你離開千里之外你無聲黑白") # 默認是精确模式
>>> print(", ".join(seg_list))
>>> seg_list = jieba.cut_for_search("沉默年代或許不該太遙遠的相愛") # 搜索引擎模式
>>> print(", ".join(seg_list))
Full Mode: 垃圾/ 不分/ 藍/ 綠
Default Mode: 垃圾/ 不分/ 藍綠
我, 送, 你, 離開, 千里, 之外, 你, 無聲, 黑白
沉默, 年代, 或, 許不該, 太遙遠, 的, 相愛
"或許"的斷詞怪怪的,也許中國不講"或許"?
先建立自定義辭典的文字檔,在後面接上詞頻與詞性並用空白隔開,詞頻越高表示優先度越高
建立一個txt檔將"或許"單詞放進去
或許 2
注意 自定義詞典不要用Windows記事本保存,這樣會加入BOM標誌,導致第一行的詞被誤讀。。
#encoding=utf-8
>>> from __future__ import print_function, unicode_literals
>>> import sys
>>> sys.path.append("../")
>>> import jieba
>>> jieba.load_userdict("userdict.txt")
>>> import jieba.posseg as pseg
>>> ieba.add_word('或許')
>>> test_sent = ("沉默年代或許不該太遙遠的相愛")
>>> words = jieba.cut(test_sent)
>>> print('/'.join(words))
沉默/年代/或許/不該/太遙遠/的/相愛
>>> print('/'.join(jieba.cut('我們中出了一個叛徒', HMM=True)))
我们/中出/了/一个/叛徒
>>> jieba.suggest_freq(('中', '出'), True)
>>> print('/'.join(jieba.cut('我們中出了一個叛徒', HMM=False))) #suggest_freq後HMM要改成False
我们/中/出/了/一个/叛徒
參考資料: https://github.com/fxsjy/jieba