其實在自然語言處理(NLP)裡面,有一個任務叫做 Named Entity Recognition(NER,中文譯作命名實體辨識或是專有名詞識別)。
NER 的本質就是一個 Supervised(監督式)的序列標註任務:我們要判斷句子中每個詞是不是實體,並且標上對應的類別。
像我們這幾天講的機器學習模型(Naive Bayes、Decision Tree)就可以作為基礎應用到 NER 上,以下就來介紹 **Named Entity Recognition (命名實體辨識)**~
👉🏻 簡單來說:NER 就是把文字資料「結構化」,讓機器能理解其中的關鍵資訊
這邊有一句話:
今天我去了百貨公司吃了牛肉麵。
我們可以辨識出的命名實體包含:
今天
(時間)我
(人物)百貨公司
(地點)牛肉麵
(食物)1. Rule-Based Methods
2. Statistical Methods
3. Supervised Learning 監督式學習
把 NER 視為 逐詞序列標註 (word-by-word sequence labeling)。
從傳統機器學習模型(Machine Learning Model)到深度學習模型(Deep Learning Model)
NER 作為 Information Extraction 的基礎,可以應用在知識圖譜、關係抽取、事件抽取、問答系統等任務上。它可以把非結構性的文本轉化為有結構的資訊,可以幫助後續更進階的 NLP 任務。