我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴...
今天和明天的主題會以講解程式碼為主,其中 TF-IDF 演算法主要來自莫煩 Pythton。莫煩 Python 原版程式碼: https://github.co...
TF-IDF(Term Frequency - Inverse Document Frequency)和餘弦相似性是整套系統很重要的部分,主要用來建立整個問答集...
聊天機器人雖有問答集可以回覆大部分常見問題,但難免會有疏漏。因此本研究亦設計回饋機制,若使用者發現機器人的回覆內容不符合想預期,可以直接查看與問句第二和第三相似...
在語句中常會出現概念相似的詞,包括某類物品、地名、時間...等。例如,輪椅、拐杖、助行器、電動床都屬於輔具實體;早上、中午、下午、傍晚屬於時間實體。將這些詞語對...
莫煩 Python 的原版程式碼: https://github.com/MorvanZhou/NLP-Tutorials我修改過的版本: https://gi...
今天的主題是介紹如何讀取 CSV (之前從各個網站爬下來的問答集),並將資料轉成後面製作語料庫模型要用的格式。 先複習一下之前爬下來的格式好了,待會我們要做的是...
還記得前幾天用爬蟲蒐集到的問答集嗎? 今天我們要來幫這些問答組合分類哦! 名詞定義:問答組合: 指一組問題+回答,和其他有關於這個問答的相關資訊(來源URL、...