Day 11 - Lesk Algorithm：讓我們來一起消除歧義 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 11

AI & Data

Day 11 - Lesk Algorithm：讓我們來一起消除歧義

17th鐵人賽

285 瀏覽

每個語言當中的某些單字存在「歧義」（ambiguity），也就是同一個單字有不同的意思，有些意思的本質相似，但是有些定義卻幾乎沒有任何關聯。

舉個經典的例子：

英文當中的 bank 可以是「銀行」也可以是「河岸」，因此如果我們這邊有一句話：

I went to the bank yesterday.

這邊的 bank 到底是指銀行還是河岸呢？

對於電腦來說，這就是一個需要解決的難題，而這項任務叫做 Word Sense Disambiguation (WSD，詞義消歧)。

Word Sense Disambiguation (WSD) 的任務就是，在特定語境中，判斷一個詞的正確意思，可以想一下其實我們人類聽到一個歧義字的時候，也是需要靠語境來去判斷該詞的意思。

這個問題在自然語言處理（NLP）裡非常重要，因為詞的意義不同會直接影響到像是機器翻譯（Machine Translation）、資訊檢索（Information Retrieval）跟問答系統（Question Answering）。

WSD 主要可以分為三類：

在 knowledge-based 方法裡，有一個經典又直觀的演算法，就是今天要介紹的 Lesk Algorithm。

這個演算法是一種dictionary-based的方法
概念出自於：文本的單字都是相互關聯的，而這種關聯性以及文字情境是可以從字的「定義」抽取、推斷出來的，而字除了關鍵字之外，也包括周圍附近的單字
Lesk 演算法的目的是消除單字之間的歧義，而這些單字通常是「出現在同一個phrase或是句子裡」，因此當兩個單字的定義有很高的重疊性時，我們就會使用這個演算法來分辨意思

假設我們的目標詞是 court 這個詞，上下文是 basketball court。

若想消除歧義，知道court的意思，先列出court的所有意思：

a place where trials and other legal cases happen, or the people present in such a place, especially the officials and those deciding if someone is guilty（法庭）
an area drawn out on the ground that is used for playing sports such as tennis and basketball （球場）
...

接著列出basketball的意思：