iT邦幫忙

2021 iThome 鐵人賽

DAY 16
0

我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴)和 CKIP 了。今天主要介紹我選擇 CKIP 而非 Jieba 的原因。

Jieba 來自中國,而 CKIP 來自中研院,我們發現同樣的句子,將「長」、「照」判斷為兩個詞,而 CKIP 則是將「長照」視為一個詞,可能原因是台灣與中國用語不同。考慮問答集中可能會有較多台灣用語,所以本研究最終選擇使用中研院製作的 CKIP。

長照斷詞

接著分別以TF-IDF搭配Jieba和CKIP,比較以「長照」為關鍵字搜尋最接近的問句,使用Jieba斷詞的結果,系統找到的是「什麼是定點乾燥?」;使用CKIP斷詞的結果,系統找到的是「長照服務專線」。很明顯使用CKIP斷詞,系統能找到更貼切的問句。

斷詞與TFIDF



上一篇
Day 15 - [語料庫模型] 03-語料讀取&資料格式轉換
下一篇
Day 17 - [語料庫模型] 05-實體對應
系列文
長照小幫手 - 從 0 開始建置 Chatbot 的筆記 & 走錯路的心得31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言