長照小幫手 Chatbot 的 Server 架設、API 開發、語料模型建置、到 APP 開發,都由我一人獨自完成。內容會以我開發過程的筆記和程式碼為主,介紹聊天機器人建置與中間走錯路的過程。
撰寫 Python 程式碼蒐集網路上的長照相關問答資訊,相比使用人工蒐集的方式,程式自動化蒐集方便又快速,也比較不會有缺漏。本研究將程式蒐集到的資料彙整成 C...
接續上一篇,昨天已經把問答集的內容都爬下來了,再來要把內容整理成下一個階段(訓練模型),方便使用的格式。完整的程式碼可以參考: https://github.c...
TF-IDF(Term Frequency - Inverse Document Frequency)和餘弦相似性是整套系統很重要的部分,主要用來建立整個問答集...
還記得前幾天用爬蟲蒐集到的問答集嗎? 今天我們要來幫這些問答組合分類哦! 名詞定義:問答組合: 指一組問題+回答,和其他有關於這個問答的相關資訊(來源URL、...
今天的主題是介紹如何讀取 CSV (之前從各個網站爬下來的問答集),並將資料轉成後面製作語料庫模型要用的格式。 先複習一下之前爬下來的格式好了,待會我們要做的是...
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴...
在語句中常會出現概念相似的詞,包括某類物品、地名、時間...等。例如,輪椅、拐杖、助行器、電動床都屬於輔具實體;早上、中午、下午、傍晚屬於時間實體。將這些詞語對...
今天和明天的主題會以講解程式碼為主,其中 TF-IDF 演算法主要來自莫煩 Pythton。莫煩 Python 原版程式碼: https://github.co...
嗨,昨天語料庫模型建好了,下一步要如何使用呢? 我們要如何比對輸入的句子與語料庫中的哪一句最相似呢? 相似度計算方式 計算兩個點之間存在的差異大小,主要有兩種...
莫煩 Python 的原版程式碼: https://github.com/MorvanZhou/NLP-Tutorials我修改過的版本: https://gi...