Day 3 - NER (命名實體識別)是什麼？ - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 3

自我挑戰組

Day 3 - NER (命名實體識別)是什麼？

15th鐵人賽 ner

3084 瀏覽

上一篇介紹完NLP之後，現在要進入這次的重點 NLP 的子任務 Named Entity Recognition (NER) 中文是命名實體識別。

命名實體一般指的是文本中具有特定意義或者指代性強的實體，通常包括人名、地名、組織機構名、日期時間、專有名詞

它的目標是從非結構化的文本中識別這些具有特定意義的命名實體，並且可以按照不同需求定義不同類別的實體，像是這次實習時所做的模型就是自定義了 品牌 品項 兩種實體。

在這個例子中，就辨識三種實體

透過這個技術我們能夠用於許多場景，例如搜尋引擎、問答系統等，找出文句中的關鍵資訊做出對應的處理，如同人與人之間的交流要從對方的話語中理解對方的意圖、意思、情緒，然後回復對方一樣。

目前常見的方法包括規則法和機器學習法，後來發展深度學習技術甚至到近期的遷移式學習。

規則法 : 最早期的方法，是基於一組預先設定的規則來提取的，可以基於語法、語義等方面進行設計，也可以利用正則表達式等工具進行匹配。它的優點是可以明確定義規則和模式，可以比較容易地修改和調整規則，但是缺點是需要人工編撰規則，對數據的泛化能力較差，難以泛化到未見過的文本或領域。
機器學習法 : 使用標註好的數據集進行訓練，建立統計模型對實體進行識別和標記。優點是一些機器學習算法，如支持向量機（SVM）和決策樹，具有較強的可解釋性，有助於理解模型的決策過程，可以自動學習規律，缺點是需要有手動標記大量的數據資料及耗時的訓練。
深度學習法 : 深度學習技術在NER領域也有了廣泛的應用，深度學習模型通常能夠自適應不同的數據和任務，具有較強的泛化能力，如基於神經網絡架構模型和基於Transformer的模型，這些模型在大規模數據下具有很好的效果，但是需要大量的計算資源(GPU)