[Day6] 詞性標注(一)-前言

2021 iThome 鐵人賽

DAY 6

自我挑戰組

13th鐵人賽 part of speech pos

3101 瀏覽

一. 前言

詞性標注 Part Of Speech(後面皆簡稱POS)，簡單來說就是將文章、句子中，文字的詞類標註出來，如下圖，每個詞在一個句子中都有對應的詞性，圖片來自於[1]：

詞性在文本當中是很重要的一個特徵，例如若是要從一大群與料庫中找出與手機相關的產品特徵，通常可以先將目標放在名詞上，再經過一些演算法取得產品特徵，在這個例子中，POS就非常重要。

目前POS Tagging 幾種常見的方法:

但如果單純用Rule-Based的方法的話會無法處理多詞性的問題，畢竟都把詞性寫死了，我們必須要考慮前後單詞與整句話，再來決定這個詞性應該要是什麼才對。在目前在Pos任務中，Probabilistic 是最常見且效果相當好的一種方式，其中又以隱馬可夫模型(HMM)的方式最為常見。

較為經典的POS的算法是利用隱馬可夫模型(HMM)+維特比演算法來找出每個詞對應的詞性的，接下來會介紹馬可夫模型(MM)、隱馬可夫模型(HMM)與維特比演算法，最後利用python來實作POS的任務。

參考資訊
[1] Categorizing and POS Tagging with NLTK Python
[2] part-of-speech_tagging

系列文

30天初步了解自然語言處理-自學筆記共 30 篇

20 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

IT邦幫忙