[D1] 偏心的 TextRank: PositionRank (Florescu and Caragea, 2017)

12th鐵人賽關鍵字分析自然語言處理論文關鍵字提取

victor.huang

2020-09-15 23:02:16

1840 瀏覽

分享至

TL;DR

此文章試圖改進原始的 TextRank 的演算法的明顯缺陷：沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer 訪問不同節點的平均機會改成加權機會在演算法中強調位置資訊。而加權的權重則是將目標詞所有出現位置的倒數加總而來。此文方法在科學文章摘要資料集的各項分數中，顯著地優於 TextRank、TPR 等經典方法。

Paper Link

https://www.aclweb.org/anthology/P17-1102/

Key Points

把詞彙的出現位置的倒數加總作為權重。如一個詞出現在 1, 4, 8 的位置，那他的權重就是 1/1 + 1/4 + 1/8 = 1.375。
權重用於 Random surfer 跳轉時的機率高低，權重較高者，有較高的可能讓 random surfer 選中。也就是下圖中 p 的部分，所以可以說這個做法與原始 PageRank 的差別就在這裡而已。
接下來就可以直接進行一般的 PageRank 運算。
關鍵詞提名的部分採取「(形容詞)*(名詞)+」的形式提取，最長為三個字。
如何得到關鍵詞分數？加總所有內含字的分數而得（偏好長詞）。
四個提問：
1. 此演算法是否對 TextRank 的兩個參數（alpha 和 window size）敏感？否。
2. 只使用第一個出現位置資訊，跟聚合所有位置資訊，哪個效果好？後者較好。
3. 在各個無監督的演算法（TextRank與SingleRank）中，表現的如何？較佳。
4. 在各個現有的演算法（TF-IDF、ExpandRank與TopicalPageRank(TPR)）中，表現如何？較佳。
在三個資料集（KDD、WWW 和 Nguyen）中的表現：
Showcase

Thoughts

此文章巧妙地把位置的資訊融入原始的 TextRank 的架構中，兼顧了效果與演算法的精鍊，印象深刻。
此文章做了大量的實驗，在三個資料集中與多個現有方法做比較，也考量多種指標，令人信服。
倒數函數快速下降的趨勢有效地強調了出現在文首的詞彙，而加總的這樣的聚合方式也順便考慮了詞頻，這樣也讓位置第二名以後的詞彙有機會搶到第一名。如果可以探討一下在各個平均位置需要對應多高的詞頻才會是等效的，應該會蠻有趣的。
雖說 window size 影響不大，那照理說應該取越小越好，降低時間複雜度，但這樣應該就很倚賴前處理的正確度。使用上感覺還是要實驗過不同的 window size。
本文的標題很務實地寫說他們在科學文章摘要資料集做得不錯，有點好奇他們在其他資料集中難道表現會比較差嗎？
後來才發現這是 2017 年 ACL 的文章，想當年深度學習已經如火如荼了，但還是有人抱持著熱情與創意改進經典演算法，佩服。