iT邦幫忙

2023 iThome 鐵人賽

DAY 3
0
自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列 第 3

Day 3 - NER (命名實體識別)是什麼?

  • 分享至 

  • xImage
  •  

上一篇介紹完NLP之後,現在要進入這次的重點 NLP 的子任務 Named Entity Recognition (NER) 中文是命名實體識別。

命名實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、地名、組織機構名、日期時間、專有名詞

它的目標是從非結構化的文本中識別這些具有特定意義的命名實體,並且可以按照不同需求定義不同類別的實體,像是這次實習時所做的模型就是自定義了 品牌 品項 兩種實體。

舉例示例

https://ithelp.ithome.com.tw/upload/images/20230918/20160436OhXbT2NupI.png
在這個例子中,就辨識三種實體

  1. 人名(PER) : Luke Rawlence
  2. 組織(ORG) : AiimiUniversity of Lincoln
  3. 地點(PLACE) : Milton Keynes

透過這個技術我們能夠用於許多場景,例如搜尋引擎、問答系統等,找出文句中的關鍵資訊做出對應的處理,如同人與人之間的交流要從對方的話語中理解對方的意圖、意思、情緒,然後回復對方一樣。

創建NER系統的幾種方法

https://ithelp.ithome.com.tw/upload/images/20230918/20160436O7ejl3b2N9.png

目前常見的方法包括規則法和機器學習法,後來發展深度學習技術甚至到近期的遷移式學習。

  • 規則法 : 最早期的方法,是基於一組預先設定的規則來提取的,可以基於語法、語義等方面進行設計,也可以利用正則表達式等工具進行匹配。它的優點是可以明確定義規則和模式,可以比較容易地修改和調整規則,但是缺點是需要人工編撰規則,對數據的泛化能力較差,難以泛化到未見過的文本或領域。

  • 機器學習法 : 使用標註好的數據集進行訓練,建立統計模型對實體進行識別和標記。優點是一些機器學習算法,如支持向量機(SVM)和決策樹,具有較強的可解釋性,有助於理解模型的決策過程,可以自動學習規律,缺點是需要有手動標記大量的數據資料及耗時的訓練。

  • 深度學習法 : 深度學習技術在NER領域也有了廣泛的應用,深度學習模型通常能夠自適應不同的數據和任務,具有較強的泛化能力,如基於神經網絡架構模型和基於Transformer的模型,這些模型在大規模數據下具有很好的效果,但是需要大量的計算資源(GPU)

NER任務的重要組成部分

(這裡先簡單帶過)T_T

  1. 數據收集
  2. 數據預處理
  3. 特徵設計
  4. 模型設計
  5. 模型訓練
  6. 模型評估

這些步驟用於構建和訓練 NER 模型

參考資料


上一篇
Day 2 - NLP (自然語言處理)是什麼?
下一篇
Day 4 - NLP 相關開發環境與設定
系列文
30天從零開始學習NLP(自然語言處理) 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言