iT邦幫忙

2025 iThome 鐵人賽

DAY 15
0
AI & Data

AI、機器學習以及深度學習的語言學應用系列 第 15

Day 15 - Named Entity Recognition (命名實體辨識)

  • 分享至 

  • xImage
  •  

其實在自然語言處理(NLP)裡面,有一個任務叫做 Named Entity Recognition(NER,中文譯作命名實體辨識或是專有名詞識別)。

NER 的本質就是一個 Supervised(監督式)的序列標註任務:我們要判斷句子中每個詞是不是實體,並且標上對應的類別。

像我們這幾天講的機器學習模型(Naive Bayes、Decision Tree)就可以作為基礎應用到 NER 上,以下就來介紹 **Named Entity Recognition (命名實體辨識)**~


NER 定義

  • NER 又叫做 Entity Chunking 或是 Entity Extraction
  • NER的任務,就是從非結構性(unstructured)的文本裡面,辨識出特定的區塊(chunks),然後再將他們分類成事先定義過的實體(entity)類別
  • NER可以看作是無結構性文本跟有結構性資料之間的橋樑,讓機器可從茫茫大海中篩出經過分類的資料
  • 常見的實體類別包含:
    • Person(人名)
    • Location(地名)
    • Organization(組織)
    • Date/Time(時間)
    • ...
      → 也可根據任務需求自訂類別

👉🏻 簡單來說:NER 就是把文字資料「結構化」,讓機器能理解其中的關鍵資訊

舉例

這邊有一句話:

今天我去了百貨公司吃了牛肉麵。

我們可以辨識出的命名實體包含:

  • 今天(時間)
  • (人物)
  • 百貨公司(地點)
  • 牛肉麵(食物)

功用為何?

  • NER 是 NLP 任務的基礎之一,因為它能把文字轉換成結構化的資料和資訊
  • 它的應用包含:
    • 知識圖譜 (Knowledge Graph)
    • 關係抽取 (Relation Extraction):先有實體,再判斷關係
    • 事件抽取 (Event Extraction):找出「人物、地點、動作」
    • 問答系統 (Question and Answering)
    • 機器翻譯(Machine Translation)

NER 的方法

1. Rule-Based Methods

  • 事前制定規則
  • 使用 Regular Expressions (正規表示式) 或是根據一些語言的規律並建立 Dictionaries,來辨識並分類命名實體(named entites)
  • 優點:在主題單一的文本裡面表現會比較好,因為在固定領域(例如醫學)裡面,這些 named entities 比較容易窮舉
  • 缺點:比較沒有彈性,難以應用在不同場景下

2. Statistical Methods

  • 利用序列模型,從資料中學習出實體標籤,像是HMM (Hidden Markov Model)、CRF (Conditional Random Field)
  • 優點:比 Rule-Based 的應用能力強
  • 缺點:需要標記資料,費功夫。

3. Supervised Learning 監督式學習

  • 把 NER 視為 逐詞序列標註 (word-by-word sequence labeling)。

  • 從傳統機器學習模型(Machine Learning Model)到深度學習模型(Deep Learning Model)

小結

NER 作為 Information Extraction 的基礎,可以應用在知識圖譜、關係抽取、事件抽取、問答系統等任務上。它可以把非結構性的文本轉化為有結構的資訊,可以幫助後續更進階的 NLP 任務。


上一篇
Day 14 - Naive Bayes Classifier(貝氏分類器)
系列文
AI、機器學習以及深度學習的語言學應用15
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言