一. 前言
詞性標注 Part Of Speech(後面皆簡稱POS),簡單來說就是將文章、句子中,文字的詞類標註出來,如下圖,每個詞在一個句子中都有對應的詞性,圖片來自於[1]:
詞性在文本當中是很重要的一個特徵,例如若是要從一大群與料庫中找出與手機相關的產品特徵,通常可以先將目標放在名詞上,再經過一些演算法取得產品特徵,在這個例子中,POS就非常重要。
目前POS Tagging 幾種常見的方法:
但如果單純用Rule-Based的方法的話會無法處理多詞性的問題,畢竟都把詞性寫死了,我們必須要考慮前後單詞與整句話,再來決定這個詞性應該要是什麼才對。在目前在Pos任務中,Probabilistic 是最常見且效果相當好的一種方式,其中又以隱馬可夫模型(HMM)的方式最為常見。
較為經典的POS的算法是利用隱馬可夫模型(HMM)+維特比演算法來找出每個詞對應的詞性的,接下來會介紹馬可夫模型(MM)、隱馬可夫模型(HMM)與維特比演算法,最後利用python來實作POS的任務。
參考資訊
[1] Categorizing and POS Tagging with NLTK Python
[2] part-of-speech_tagging