今晚，我想來點經典ＮＬＰ論文。 :: 第 12 屆 iThome 鐵人賽

victor.huang (jadore801120)

iT邦新手 5 級 ‧ 點數 96

5410

累計瀏覽數

站內簡訊追蹤

鐵人檔案

第 12 屆 iThome 鐵人賽

回列表

AI & Data

今晚，我想來點經典ＮＬＰ論文。系列

喜歡 NLP 的你，是不是正在愉快地和 BERT 與 Big bird 玩耍？還是正在安第斯山脈與 GPT 的獨角獸們說英文？在模型進步的飛快目不暇給時，夜深人靜，是否想來點經典的 NLP 論文，配上一杯清爽的檸檬氣泡水，品味一下在深度學習到來前，人們是怎麼折騰做 NLP 的呢？
筆者欲隨性的選三十篇 NLP 文章，讓我們一起回味那短短幾年前的人們的巧思與拼搏。

參賽天數 17 天｜共 17 篇文章｜ 1 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 1555 瀏覽

DAY 1

[D1] 偏心的 TextRank: PositionRank (Florescu and Caragea, 2017)

TL;DR 此文章試圖改進原始的 TextRank 的演算法的明顯缺陷：沒有利用到位置資訊。藉由將 PageRank 算法中原有的 Random surfer...

2020-09-15 ‧ 由 victor.huang 分享

0 Like 0 留言 1234 瀏覽

DAY 2

[D2] 我說在座的各位都是＿＿：TopicRank (Bougouin et al. 2013)

TL;DR 本文引入主題的概念，利用聚合式階層分群法(HAC) 將字面相近的詞彙歸入同一個主題，視為網路中的一個節點。將所有的主題節點構成全聯接圖，而邊的權重則...

2020-09-16 ‧ 由 victor.huang 分享

0 Like 0 留言 956 瀏覽

DAY 3

[D3] Unsupervised Keyphrase Extraction with Multipartite Graphs (Florian Boudin, 2018)

TL;DR 本文延續 TopicRank 的思想，使用 HAC 先將候選詞分群，希望最後的結果能涵蓋到較多主題。詞圖的構成為：以候選詞為節點；除了同主題下的節點...

2020-09-17 ‧ 由 victor.huang 分享

0 Like 0 留言 577 瀏覽

DAY 4

[D4] Finding Predominant Word Senses in Untagged Text (McCarthy et al., 2004)

TL;DR 在過去的方法中 WSD 都是用頻率最高的詞義，但這會隨著語料的不同而不準。因為缺少訓練資料，使用監督式學習也相當不易。然非監督的做法之所以做不好，其...

2020-09-18 ‧ 由 victor.huang 分享

0 Like 0 留言 925 瀏覽

DAY 5

[D5] Open Information Extraction using Wikipedia

Key Points 本文旨在未提供字典的情況下從 Wikipedia 抽取關係對。利用 Wiki infobox 建立關係對，再從文章中找到對應的句子。...

2020-09-19 ‧ 由 victor.huang 分享

0 Like 0 留言 643 瀏覽

DAY 6

[D6] 今晚在夯什麼：Finding Bursty Topics from Microblogs (Diao et al., 2012 )

TL;DR 此篇文章提出一個針對時序短網誌改進的 LDA 模型，目的在於偵測網路事件的爆發。相較於經典 LDA，此篇文章的模型引入時間變數，用以模擬在相近時間點...

2020-09-20 ‧ 由 victor.huang 分享

0 Like 0 留言 805 瀏覽

DAY 7

[D7] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 1/2

Paper Link ECIR 2011https://link.springer.com/chapter/10.1007/978-3-642-20161-5...

2020-09-21 ‧ 由 victor.huang 分享

0 Like 0 留言 694 瀏覽

DAY 8

[D8] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 2/2

Key Points 注意經過人工標記後，我們已經可以知道每篇文章的類型了。NYT news -> category labelTweet ->...

2020-09-22 ‧ 由 victor.huang 分享

0 Like 0 留言 882 瀏覽

DAY 9

[D9] GSDMM (Yin and Wang, 2014) 1/2

TL;DR 此文為了短文本分群提出一個機率圖模型，並為之提出一個 collapsed Gibbs Sampling 演算法，並另外提出一個類比情境，稱作電影小組...

2020-09-23 ‧ 由 victor.huang 分享

0 Like 0 留言 1079 瀏覽

DAY 10

[D10] GSDMM (Yin and Wang, 2014) 2/2

Key Points 實驗資料集: Google News Google news 有自己做分群。爬了 2013/ 11/ 27 這天的新聞 11,1...

2020-09-24 ‧ 由 victor.huang 分享

victor.huang的鐵人檔案

victor.huang的收藏

victor.huang的追蹤

victor.huang的Like

victor.huang的紀錄

victor.huang的訂閱列表