第 12 屆 iThome 鐵人賽

DAY 4

0

AI & Data

今晚，我想來點經典ＮＬＰ論文。系列第 4 篇

[D4] Finding Predominant Word Senses in Untagged Text (McCarthy et al., 2004)

12th鐵人賽

2020-09-18 21:05:32

905 瀏覽

分享至

TL;DR

在過去的方法中 WSD 都是用頻率最高的詞義，但這會隨著語料的不同而不準。因為缺少訓練資料，使用監督式學習也相當不易。然非監督的做法之所以做不好，其根本原因在於沒有使用上下文資訊。本文採用一個自動收集的字典，以及 WordNet 的相似度工具定位出最有可能的詞義。在 SenEval-2 的實驗上，獲得了 64% 的 precision。

Paper Link

Finding Predominant Word Senses in Untagged Text
Diana McCarthy & Rob Koeling & Julie Weeds & John Carroll
ACL 2004
https://www.aclweb.org/anthology/P04-1036/

Key Points

手工標記的 WSD 資料非常稀少；即使有，資料集也通常不大，難以涵括大部分的詞義，如 SemCor，也僅有 25 萬字，所以用監督式學習的方式並不容易。
本文作者使用一個自動收集的字典來尋找前 k 個與目標詞最相近的鄰居，然後使用 WordNet 計算相似度。

[D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

[D5] Open Information Extraction using Wikipedia

系列文

今晚，我想來點經典ＮＬＰ論文。共 17 篇

目錄

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

66 組

團體組數

2 組

累計文章數

57 篇

最後報名日

9/15

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

ChatGPT Business & Codex 如何從零開始?

IT邦幫忙