iT邦幫忙

鐵人檔案

第 12 屆 iT 邦幫忙鐵人賽
回列表
AI & Data

今晚,我想來點經典NLP論文。 系列

喜歡 NLP 的你,是不是正在愉快地和 BERT 與 Big bird 玩耍?還是正在安第斯山脈與 GPT 的獨角獸們說英文?在模型進步的飛快目不暇給時,夜深人靜,是否想來點經典的 NLP 論文,配上一杯清爽的檸檬氣泡水,品味一下在深度學習到來前,人們是怎麼折騰做 NLP 的呢?
筆者欲隨性的選三十篇 NLP 文章,讓我們一起回味那短短幾年前的人們的巧思與拼搏。

參賽天數 17 天 | 共 17 篇文章 | 1 人訂閱 訂閱系列文 RSS系列文
DAY 1

[D1] 偏心的 TextRank: PositionRank (Florescu and Caragea, 2017)

TL;DR 此文章試圖改進原始的 TextRank 的演算法的明顯缺陷:沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer...

2020-09-15 ‧ 由 victor.huang 分享
DAY 2

[D2] 我說在座的各位都是__:TopicRank (Bougouin et al. 2013)

TL;DR 本文引入主題的概念,利用聚合式階層分群法(HAC) 將字面相近的詞彙歸入同一個主題,視為網路中的一個節點。將所有的主題節點構成全聯接圖,而邊的權重則...

2020-09-16 ‧ 由 victor.huang 分享
DAY 3

[D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

TL;DR 本文延續 TopicRank 的思想,使用 HAC 先將候選詞分群,希望最後的結果能涵蓋到較多主題。詞圖的構成為:以候選詞為節點;除了同主題下的節點...

2020-09-17 ‧ 由 victor.huang 分享
DAY 4

[D4] Finding Predominant Word Senses in Untagged Text (McCarthy et al., 2004)

TL;DR 在過去的方法中 WSD 都是用頻率最高的詞義,但這會隨著語料的不同而不準。因為缺少訓練資料,使用監督式學習也相當不易。然非監督的做法之所以做不好,其...

2020-09-18 ‧ 由 victor.huang 分享
DAY 5

[D5] Open Information Extraction using Wikipedia

Key Points 本文旨在未提供字典的情況下從 Wikipedia 抽取關係對。 利用 Wiki infobox 建立關係對,再從文章中找到對應的句子。...

2020-09-19 ‧ 由 victor.huang 分享
DAY 6

[D6] 今晚在夯什麼:Finding Bursty Topics from Microblogs (Diao et al., 2012 )

TL;DR 此篇文章提出一個針對時序短網誌改進的 LDA 模型,目的在於偵測網路事件的爆發。相較於經典 LDA,此篇文章的模型引入時間變數,用以模擬在相近時間點...

2020-09-20 ‧ 由 victor.huang 分享
DAY 7

[D7] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 1/2

Paper Link ECIR 2011 https://link.springer.com/chapter/10.1007/978-3-642-20161-...

2020-09-21 ‧ 由 victor.huang 分享
DAY 8

[D8] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 2/2

Key Points 注意經過人工標記後,我們已經可以知道每篇文章的類型了。 NYT news -> category label Tweet -&gt...

2020-09-22 ‧ 由 victor.huang 分享
DAY 9

[D9] GSDMM (Yin and Wang, 2014) 1/2

TL;DR 此文為了短文本分群提出一個機率圖模型,並為之提出一個 collapsed Gibbs Sampling 演算法,並另外提出一個類比情境,稱作電影小組...

2020-09-23 ‧ 由 victor.huang 分享
DAY 10

[D10] GSDMM (Yin and Wang, 2014) 2/2

Key Points 實驗資料集: Google News Google news 有自己做分群。 爬了 2013/ 11/ 27 這天的新聞 11,1...

2020-09-24 ‧ 由 victor.huang 分享