iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 11
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 11

[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2

  • 分享至 

  • xImage
  •  

TL;DR

本文引入了時間的概念,讓 LDA 的每個參數會依照前一個時間點的參數做變化。變化的情況,用 Logistic Normal Distribution 模擬。由於 Logistic Normal 與 multinomial 並非共軛,所以只能用近似的算法,作者推導出一個變分形式,並用 Kalman filter 與 wavelet regression 兩種方法近似。其結果顯示在質性上結果相當不錯,呈現出同主題的幾年間的內容變化,並且在預測下一年的文章的任務上表現佳。

Paper Link

ICML 2006
https://dl.acm.org/doi/10.1145/2939672.2939748

Key Points

  • 作者引入時間變數,讓每個時間點都有各自的參數( alpha 和 beta )。
  • 隨時間變動的形式體現在不同時間點的變數關係上,具體來說使用 logisitic Normal distribution
    • https://ithelp.ithome.com.tw/upload/images/20200925/20128558GMdIwymXKA.png
    • https://ithelp.ithome.com.tw/upload/images/20200925/20128558RDqh5XlQdE.png
  • 而構成文章的形式仍與經典 LDA 非常相像,差別在於上面提到的採樣方法。
    • https://ithelp.ithome.com.tw/upload/images/20200925/20128558SLt0daZ1NH.png
  • 然而 Gaussian 模型和 multinomial 模型並非共軛,想要用 gibbs sampling 要困難得多,作者這邊先獲得其變分形式,然後使用兩種方法近似,分別是 Kalman filter 和 wavelet regression。
    • 由下可以看到,在模擬 word unigram model ,兩種近似方法都可以很好的捕捉到尖端,但又能將整個模型平滑化。
      • https://ithelp.ithome.com.tw/upload/images/20200925/20128558o0R1WsO5HH.png

[未完待續]


上一篇
[D10] GSDMM (Yin and Wang, 2014) 2/2
下一篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言