iT邦幫忙

2021 iThome 鐵人賽

DAY 6
0

一. 前言

詞性標注 Part Of Speech(後面皆簡稱POS),簡單來說就是將文章、句子中,文字的詞類標註出來,如下圖,每個詞在一個句子中都有對應的詞性,圖片來自於[1]:

詞性在文本當中是很重要的一個特徵,例如若是要從一大群與料庫中找出與手機相關的產品特徵,通常可以先將目標放在名詞上,再經過一些演算法取得產品特徵,在這個例子中,POS就非常重要。

目前POS Tagging 幾種常見的方法:

  • Rule-Based:自訂 rules 來標記單詞,如看到 ed、i,或是看到'看'、'打'就標注 verb。
  • Probabilistic:使用條件機率的原理,預測單詞詞性,常見如 CRF、HMM,此方法也是深度學習出來前,最常見且效果最好的標注方式。
  • Deep Learning:使用深度學習模型預測標註詞性,例如使用LSTM, BERT等方法進行多對多的訓練,這裡有很多相關的資訊可以參考[2]。

但如果單純用Rule-Based的方法的話會無法處理多詞性的問題,畢竟都把詞性寫死了,我們必須要考慮前後單詞與整句話,再來決定這個詞性應該要是什麼才對。在目前在Pos任務中,Probabilistic 是最常見且效果相當好的一種方式,其中又以隱馬可夫模型(HMM)的方式最為常見。

較為經典的POS的算法是利用隱馬可夫模型(HMM)+維特比演算法來找出每個詞對應的詞性的,接下來會介紹馬可夫模型(MM)、隱馬可夫模型(HMM)與維特比演算法,最後利用python來實作POS的任務。

參考資訊
[1] Categorizing and POS Tagging with NLTK Python
[2] part-of-speech_tagging


上一篇
[Day5] 語言模型(二)-N-gram實作
下一篇
[Day7] 詞性標注(二)-方法介紹
系列文
30天初步了解自然語言處理-自學筆記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言