最近有點疲乏了 弄一點點就好
今天學著把字給切割丟給機器
import jieba
#分詞
text = "我星期天早上想去爬山,我是台中人所以想去玩"
words = jieba.lcut(text)
print(words)
#過濾不需要的詞
with open('stopwords.txt','r',encoding='utf-8')as file:
stopwords = set(word.strip() for line in file for word in line.split(','))
filtered_word = [word for word in words if word not in stopwords]
print(filtered_word)
輸出結果
沒有過濾
['我', '星期天', '早上', '想', '去', '爬山', ',', '我', '是', '台中人', '所以', '想', '去', '玩']
有過濾
['我', '星期天', '早上', '想', '去', '爬山', ',', '我', '台中人', '想', '去', '玩']
不過我覺得最難的是選過濾詞 不太確定要怎麼弄
明天好想休息q_q