Day 28: 文字相似度- 語言學

第 11 屆 iThome 鐵人賽

DAY 28

AI & Data

深入淺出搜尋引擎和自然語言處理系列第 28 篇

11th鐵人賽 nlp 自然語言處理語言學

丹尼爾胡

2019-09-29 04:51:33

3467 瀏覽

分享至

當我們在進行字義分析時可能會遇到一種狀況：

"This is a good movie." → :)
"This is a great movie." → :)
"This is a bad film." → :(
"This is a wonderful film." → ?

對於機器而言，在訓練集中它沒有見過wonderful，所以它沒辦法判別這個字的褒貶；而對於film，機器並不知道這是movie的相似字，在僅存的資料，它認為這個詞是貶義的。然而，這句話真實的意思應該是「這是一部很棒的影片。」應該賦予褒義。

為此，我們需要將語義包含到這樣的模型當中。我們可以運用「詞彙資料庫」(lexical database, e.g. Wordnet)中的語義資料和文字關係，將這些資訊放到這樣的模型中。

關於文字關係，可以參考：

hyponym: 上位詞 < - > hypernym: 下位詞
antonym: 反義詞 < - > synonym: 相似詞
meronym: 局部詞 < - > holonym: 整體詞

在Wordnet中的文字關係長得就像這樣：

而要計算兩個詞在詞義關係上有多相似，我們可以用三種公式：

根據關係距離取得相似度

其中pathlen(c1,c2)是指兩字的距離。若c1=c2，則pathlen = 1。
例如：

simpath(nickel, nickel) = 1 / 1 = 1
simpath(nickel, coin) = 1 / 2 = 0.5
simpath(nickel, money) = 1 / 6 = 0.17
simpath(nickel, Richter scale) = 1 / 8 = 0.125

Wu & Palmer相似度，把語義深度（在資料庫中的深度）也列入考量：

其中depth(c)是指字的深度，LCS(c1,c2)是lowest common subsumer，深度最低的相似字。
例如：

simwup(nickel, money) = 2*2 / (3+6) = 0.44
simwup(nickel, Richter scale) = 2*1 / (3+6) = 0.22

Lin Similarity，將文字出現在文集中的機率也考慮進去：

P(c)將所有包含這個字的文字（文字關係在c字之下的所有字，如P(coin)中的w={coin, nickel, dime}），N則為所有文集中的字數。

透過P(c)我們可以計算information content (IC)：

再透過IC計算Lin Similarity：

除了利用語言學中的語義關係，我們也可以用文字在文集中的分佈情形來計算文字相似度，例如知名的Word2Vec。

Day 27: 猜字AI加強版 -- Bigram Guesser

Day 29: 電腦怎麼知道「說」跟「曰」意義相近？關於文字相似度

系列文

深入淺出搜尋引擎和自然語言處理共 30 篇

RSS系列文訂閱系列文

133 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19861 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙

深入淺出搜尋引擎和自然語言處理系列 第 28 篇