喜歡 NLP 的你,是不是正在愉快地和 BERT 與 Big bird 玩耍?還是正在安第斯山脈與 GPT 的獨角獸們說英文?在模型進步的飛快目不暇給時,夜深人靜,是否想來點經典的 NLP 論文,配上一杯清爽的檸檬氣泡水,品味一下在深度學習到來前,人們是怎麼折騰做 NLP 的呢?
筆者欲隨性的選三十篇 NLP 文章,讓我們一起回味那短短幾年前的人們的巧思與拼搏。
TL;DR 此文章試圖改進原始的 TextRank 的演算法的明顯缺陷:沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer...
TL;DR 本文引入主題的概念,利用聚合式階層分群法(HAC) 將字面相近的詞彙歸入同一個主題,視為網路中的一個節點。將所有的主題節點構成全聯接圖,而邊的權重則...
TL;DR 本文延續 TopicRank 的思想,使用 HAC 先將候選詞分群,希望最後的結果能涵蓋到較多主題。詞圖的構成為:以候選詞為節點;除了同主題下的節點...
TL;DR 在過去的方法中 WSD 都是用頻率最高的詞義,但這會隨著語料的不同而不準。因為缺少訓練資料,使用監督式學習也相當不易。然非監督的做法之所以做不好,其...
Key Points 本文旨在未提供字典的情況下從 Wikipedia 抽取關係對。 利用 Wiki infobox 建立關係對,再從文章中找到對應的句子。...
TL;DR 此篇文章提出一個針對時序短網誌改進的 LDA 模型,目的在於偵測網路事件的爆發。相較於經典 LDA,此篇文章的模型引入時間變數,用以模擬在相近時間點...
Paper Link ECIR 2011https://link.springer.com/chapter/10.1007/978-3-642-20161-5...
Key Points 注意經過人工標記後,我們已經可以知道每篇文章的類型了。NYT news -> category labelTweet ->...
TL;DR 此文為了短文本分群提出一個機率圖模型,並為之提出一個 collapsed Gibbs Sampling 演算法,並另外提出一個類比情境,稱作電影小組...
Key Points 實驗資料集: Google News Google news 有自己做分群。 爬了 2013/ 11/ 27 這天的新聞 11,1...