iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 4
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 4

[D4] Finding Predominant Word Senses in Untagged Text (McCarthy et al., 2004)

TL;DR

在過去的方法中 WSD 都是用頻率最高的詞義,但這會隨著語料的不同而不準。因為缺少訓練資料,使用監督式學習也相當不易。然非監督的做法之所以做不好,其根本原因在於沒有使用上下文資訊。本文採用一個自動收集的字典,以及 WordNet 的相似度工具定位出最有可能的詞義。在 SenEval-2 的實驗上,獲得了 64% 的 precision。

Paper Link

Finding Predominant Word Senses in Untagged Text
Diana McCarthy & Rob Koeling & Julie Weeds & John Carroll
ACL 2004
https://www.aclweb.org/anthology/P04-1036/

Key Points

  1. 手工標記的 WSD 資料非常稀少;即使有,資料集也通常不大,難以涵括大部分的詞義,如 SemCor,也僅有 25 萬字,所以用監督式學習的方式並不容易。
  2. 本文作者使用一個自動收集的字典來尋找前 k 個與目標詞最相近的鄰居,然後使用 WordNet 計算相似度。

上一篇
[D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)
下一篇
[D5] Open Information Extraction using Wikipedia
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言