iT邦幫忙

語料庫相關文章
共有 8 則文章
鐵人賽 Mobile Development DAY 16

技術 Day 16 - [語料庫模型] 04-斷詞工具比較 Jieba vs CKIP

我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴...

鐵人賽 Mobile Development DAY 18

技術 Day 18 - [語料庫模型] 06-程式碼: TF、IDF、TF-IDF

今天和明天的主題會以講解程式碼為主,其中 TF-IDF 演算法主要來自莫煩 Pythton。莫煩 Python 原版程式碼: https://github.co...

鐵人賽 Mobile Development DAY 13

技術 Day 13 - [語料庫模型] 01-TF-IDF與餘弦相似性

TF-IDF(Term Frequency - Inverse Document Frequency)和餘弦相似性是整套系統很重要的部分,主要用來建立整個問答集...

鐵人賽 Mobile Development DAY 21

技術 Day 21 - [語料庫模型] 09-回饋機制

聊天機器人雖有問答集可以回覆大部分常見問題,但難免會有疏漏。因此本研究亦設計回饋機制,若使用者發現機器人的回覆內容不符合想預期,可以直接查看與問句第二和第三相似...

鐵人賽 Mobile Development DAY 17

技術 Day 17 - [語料庫模型] 05-實體對應

在語句中常會出現概念相似的詞,包括某類物品、地名、時間...等。例如,輪椅、拐杖、助行器、電動床都屬於輔具實體;早上、中午、下午、傍晚屬於時間實體。將這些詞語對...

鐵人賽 Mobile Development DAY 20

技術 Day 20 - [語料庫模型] 08-繪製語料庫模型Heatmap圖

莫煩 Python 的原版程式碼: https://github.com/MorvanZhou/NLP-Tutorials我修改過的版本: https://gi...

鐵人賽 Mobile Development DAY 15

技術 Day 15 - [語料庫模型] 03-語料讀取&資料格式轉換

今天的主題是介紹如何讀取 CSV (之前從各個網站爬下來的問答集),並將資料轉成後面製作語料庫模型要用的格式。 先複習一下之前爬下來的格式好了,待會我們要做的是...

鐵人賽 Mobile Development DAY 14

技術 Day 14 - [語料庫模型] 02-問答組合分類方式

還記得前幾天用爬蟲蒐集到的問答集嗎? 今天我們要來幫這些問答組合分類哦! 名詞定義:問答組合: 指一組問題+回答,和其他有關於這個問答的相關資訊(來源URL、...