iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 3
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 3

[D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

TL;DR

本文延續 TopicRank 的思想,使用 HAC 先將候選詞分群,希望最後的結果能涵蓋到較多主題。詞圖的構成為:以候選詞為節點;除了同主題下的節點,其他所有節點互相連接,構成多分圖;邊的權重則是兩候選詞之位置差倒數之總和。並有額外的提拔機制,提升特定詞的分數。本文模型在三個資料集中都表現優於舊有方法。

Paper Link

NAACL 2018
Unsupervised Keyphrase Extraction with Multipartite Graphs
https://www.aclweb.org/anthology/N18-2105/

Key Points

  1. TopicRank 優點在於可以涵括各種主題,但也有其缺點:
    1. 在同一個主題中,每個候選詞的機會都是相同的。(這句不確定是什麼意思,因為前文有三種策略給後選詞不同的機會
    2. 分群的錯誤會傳遞到後面的步驟,影響到最後排序的結果。
  2. 本文延續 TopicRank 的思想,事先將候選詞分群,盡量選擇不同的主題涵括文章所有概念。
  3. 抽候選詞的方法一樣是 /Adj*Noun+/,分群的方法一樣是 HAC。
  4. 此文使用候選詞(而非主題)作為節點,使用 Multipartite graph(多分圖)(而非全聯接圖)來構成詞圖,是與 TopicRank 最不相同的地方。其概念為,文章中所有的候選詞都互相連接,除了同個主題下的候選詞們。故若有 K 個主題,除了群內的節點,其他的節點都互相連接,構成 K-partite graph。
    https://ithelp.ithome.com.tw/upload/images/20200917/20128558fJPf42EgDx.png
  5. 任一邊的權重,是該邊兩端候選詞的位置差的總和。下面的公式中,ci cj 是兩個候選詞,P(c) 指的是候選詞 c 的位置集合。
    https://ithelp.ithome.com.tw/upload/images/20200917/20128558rC2S1HHWu9.png
    作者稱這個模型優點有二:
    1. 他們將主題內的邊移除,避免同一主題內的節點們互相灌票,一起入選,故能間接地涵括更多主題。
    2. 因為他們對同一主題下不同的後選詞分別對待,所以能夠脫穎而出的候選詞,應該會是能夠代表這個主題的詞。(為什麼?
  6. 本文的關鍵:用改變邊權重,提拔有希望的候選詞
    1. 此文說遇到一些特殊的情況可以做提拔,比方說某詞命中我們自己準備的字典。
    2. 但在這篇文章中,是提拔每個主題中第一個出現的後選詞。
    3. 提拔的方式,是把同主題的出邊的權重,乘上一個被提拔詞的位置函數,加到被提拔詞的入邊的權重上。
      https://ithelp.ithome.com.tw/upload/images/20200917/20128558FPR0f3OFQV.png
      https://ithelp.ithome.com.tw/upload/images/20200917/20128558gl0MTJrib0.png
  7. 接下來就可以跑 PageRank 了。
  8. 本文實驗在三個資料集上面,分別是 SemEval-2010、Hulth 2003、Marujo-2012。在所有資料集上表現良好。另外也有做移除提拔機制的版本,可以看到如果只是改成 Multipartite graph ,效果僅有略微提升。
    https://ithelp.ithome.com.tw/upload/images/20200917/20128558ZwpHeJJruM.png
  9. 討論:
    1. 有些標準答案裡面同時包含上位詞與下位詞(hypernym-hyponym),例如 Model 和 Topic Model,這導致此模型表現不好。(這就是昨天 TopicRank 提到的可能的錯誤傳遞的部分,但也只能說是必然的事情(所以深度學習的 End to End 才會這麼討喜呀)。)
    2. 在 92% 的情況下,抽出來的前十個關鍵詞,都分屬於不同的主題。

Thoughts

  1. 這個方法比起 TopicRank 放寬了在一個主題內各個節點和主題外的節點的互動方式。似乎還蠻有道理的,詞與詞的距離差概念是清楚的,但主題與主題揉合了所有內涵詞的距離差,壓縮了這些數字表達的力道
  2. 但此篇文章的概念還是有點微妙,移除了主題內的邊為了禁止主題內互相灌票,但又為了要提升主題內的有希望的候選詞,利用了主題內其他候選詞。從直接灌票變成間接灌票。(斧鑿(咳))
  3. 不過,實驗可以看到,提拔制度是效能提升的關鍵,所以說雖然也是在灌票,但是做法變得細緻?
  4. 討論的部分提及的主題涵蓋率廣,是否代表了提拔制度非常有力地提升了每個有希望的後選詞的機會?那這樣與 TopicRank 在選完主題後,再選該主題內的有希望的候選詞概念,不是一樣的嗎?
    • 有差別的地方可能在於,這樣的詞圖可以找出比較重要的主題
    • 所以應該可以比較 TopicRank 和本文找出來的關鍵詞覆蓋的主題是否相同?如不相同,那是什麼樣的主題比較容易被偏好呢?

上一篇
[D2] 我說在座的各位都是__:TopicRank (Bougouin et al. 2013)
下一篇
[D4] Finding Predominant Word Senses in Untagged Text (McCarthy et al., 2004)
系列文
今晚,我想來點經典NLP論文。17

尚未有邦友留言

立即登入留言