iT邦幫忙

2024 iThome 鐵人賽

DAY 17
0
自我挑戰組

從零打造客製化 AI 聊天機器人系列 第 17

[從零打造客製化 AI 聊天機器人] 實體識別(NER)

  • 分享至 

  • xImage
  •  

什麼是實體識別(NER)?

實體識別(Named Entity Recognition, NER)是自然語言處理的一部份,用於處理結構化和非結構化數據,將這些數據中的實體,分類為已定義的類別,從使用者的語句中提取出特定類型的訊息(稱為"實體"),例如:地名、日期、產品名稱等,讓系統更好理解使用者的需求並做出適當的回應。

實體識別的重要性:

  • 了解上下文:通過提取關鍵實體,可以了解對話的具體內容和細節,從而提升回應的準確性。
  • 提升用戶體驗:識別特定的訊息(例如:地點、時間)可以使系統針對用戶的具體需求進行個性化回應,提供更精準的資訊。
  • 自動化能力:通過結合實體識別與意圖識別,系統可以自動化處理複雜的查詢,例如:預訂餐廳、查詢天氣、推薦景點等。

舉例:
使用者:「請推薦台北的夜市?」
"台北"可以被識別為地點類型的實體,系統可以更精確地推薦台北地區的夜市,例如:士林夜市。

實作實體識別功能的步驟:

  1. 訓練數據收集:收集大量文本數據,這些數據包含多種實體類別,例如:人名、地點、時間、組織等,並包括多樣化的語句結構以增加模型的泛化能力。
  2. 數據預處理:訓練前需要對數據進行預處理,例如:斷詞、分句等。可以使用現有的斷詞工具,如jieba
  3. 建立實體識別模型:可以使用工具如Azure OpenAI或其他自然語言處理平台來訓練實體識別模型。
  4. 設定實體類型:定義實體類型,來表示每個詞語,例如:地點、時間、人名、數量等,這些類型是系統能夠理解和處理的實體分類。
  5. 錯誤處理機制:當模型無法辨識實體時,應有合適的錯誤處理。例如:「對不起,我不確定您提到的內容,能再具體說明嗎?」這樣的回應有助於提升用戶體驗。
  6. 模型訓練:模型設計完成後,需要用訓練數據交叉驗證,以選擇最優的參數。
  7. 整合至系統:將訓練完成的實體識別模型整合到聊天機器人中。當使用者輸入語句時,系統不僅識別意圖,還能從中提取實體,提供更精確的回答。

意圖和實體識別整合:
將意圖識別和實體識別結合,可以增強聊天機器人的智能化程度。例如:「我想訂今晚七點的士林夜市導覽」,系統可以識別:

  • 意圖:預訂導覽
  • 實體:今晚七點(時間)、士林夜市(地點)

通過這些步驟,實體識別可以幫助系統更好地理解用戶的具體需求,從而提供更準確和個性化的回應


上一篇
[從零打造客製化 AI 聊天機器人] 意圖識別
下一篇
[從零打造客製化 AI 聊天機器人] 設置意圖資料庫
系列文
從零打造客製化 AI 聊天機器人30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言