Jieba

2019 iT 邦幫忙鐵人賽

DAY 7

自我挑戰組

自然語言技術與AI/ML初探系列第 7 篇

2019鐵人賽

smichelle19

團隊InfoSec Horadrim

2018-10-22 23:44:51

3023 瀏覽

分享至

Jieba斷詞練習

輸入程式碼

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

玩玩文字雲
pip install wordcloud
pip install jieba

import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
text_from_file_with_apath =open("/panda/media.txt ",encoding="UTF-8").read()
wordlist_after_jieba =jieba.cut(text_from_file_with_apath,cut_all=True)
wl_space_split =" ".join(wordlist_after_jieba)
my_wordcloud =WordCloud(font_path="/anaconda3/lib/python3.6/site-packages/Library/Fonts/Songti.ttc").generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

畫出圖了 :D