我們尋找的並不應該是英雄,而是一個好的想法Noam Chomsky 前言 還記得碩一下的時候,Lab 的老師找了以前一個現在在擔任軟體工程師的同學來課堂上演...
今日大綱 自然語言處理步驟 Bag of Words( BOW) TF-IDF(Term frequency-Inverse document frequen...
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴...
一. 為何需要斷詞最主要的原因就是中文的最小一個單位就是一個詞,通常不能直接餵一個句子給你的語言模型處理,這樣模型連詞跟詞的關係都不知道,所以我們需要先利用斷詞...