iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
Mobile Development

長照小幫手 - 從 0 開始建置 Chatbot 的筆記 & 走錯路的心得 系列

長照小幫手 Chatbot 的 Server 架設、API 開發、語料模型建置、到 APP 開發,都由我一人獨自完成。內容會以我開發過程的筆記和程式碼為主,介紹聊天機器人建置與中間走錯路的過程。

鐵人鍊成 | 共 31 篇文章 | 3 人訂閱 訂閱系列文 RSS系列文 團隊來自行雲者研發基地的菁英們
DAY 11

Day 11 - [爬蟲] 01-蒐集訓練資料 以衛服部長照常見問題為例

撰寫 Python 程式碼蒐集網路上的長照相關問答資訊,相比使用人工蒐集的方式,程式自動化蒐集方便又快速,也比較不會有缺漏。本研究將程式蒐集到的資料彙整成 C...

2021-09-25 ‧ 由 dreambo4 分享
DAY 12

Day 12 - [爬蟲] 02-儲存爬蟲資料-CSV格式

接續上一篇,昨天已經把問答集的內容都爬下來了,再來要把內容整理成下一個階段(訓練模型),方便使用的格式。完整的程式碼可以參考: https://github.c...

2021-09-26 ‧ 由 dreambo4 分享
DAY 13

Day 13 - [語料庫模型] 01-TF-IDF與餘弦相似性

TF-IDF(Term Frequency - Inverse Document Frequency)和餘弦相似性是整套系統很重要的部分,主要用來建立整個問答集...

2021-09-27 ‧ 由 dreambo4 分享
DAY 14

Day 14 - [語料庫模型] 02-問答組合分類方式

還記得前幾天用爬蟲蒐集到的問答集嗎? 今天我們要來幫這些問答組合分類哦! 名詞定義:問答組合: 指一組問題+回答,和其他有關於這個問答的相關資訊(來源URL、...

2021-09-28 ‧ 由 dreambo4 分享
DAY 15

Day 15 - [語料庫模型] 03-語料讀取&資料格式轉換

今天的主題是介紹如何讀取 CSV (之前從各個網站爬下來的問答集),並將資料轉成後面製作語料庫模型要用的格式。 先複習一下之前爬下來的格式好了,待會我們要做的是...

2021-09-29 ‧ 由 dreambo4 分享
DAY 16

Day 16 - [語料庫模型] 04-斷詞工具比較 Jieba vs CKIP

我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配 TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具就是 Jieba(結巴...

2021-09-30 ‧ 由 dreambo4 分享
DAY 17

Day 17 - [語料庫模型] 05-實體對應

在語句中常會出現概念相似的詞,包括某類物品、地名、時間...等。例如,輪椅、拐杖、助行器、電動床都屬於輔具實體;早上、中午、下午、傍晚屬於時間實體。將這些詞語對...

2021-10-01 ‧ 由 dreambo4 分享
DAY 18

Day 18 - [語料庫模型] 06-程式碼: TF、IDF、TF-IDF

今天和明天的主題會以講解程式碼為主,其中 TF-IDF 演算法主要來自莫煩 Pythton。莫煩 Python 原版程式碼: https://github.co...

2021-10-02 ‧ 由 dreambo4 分享
DAY 19

Day 19 - [語料庫模型] 07-程式碼: 餘弦相似性

嗨,昨天語料庫模型建好了,下一步要如何使用呢? 我們要如何比對輸入的句子與語料庫中的哪一句最相似呢? 相似度計算方式 計算兩個點之間存在的差異大小,主要有兩種...

2021-10-03 ‧ 由 dreambo4 分享
DAY 20

Day 20 - [語料庫模型] 08-繪製語料庫模型Heatmap圖

莫煩 Python 的原版程式碼: https://github.com/MorvanZhou/NLP-Tutorials我修改過的版本: https://gi...

2021-10-04 ‧ 由 dreambo4 分享