iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 12
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 12

[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2

Key Points

  • 前略。
  • 資料集:
    • 用 1881年 到 1999年 的 Science 期刊。(!)
    • 每年抽出 250 篇文章出來,總共三萬篇。
    • 前處理:
      • stemming。
      • 移除出現次數少於 25 次的文字。
      • 最終字典大小:15,955字。
  • 實驗1:
    • 設定 20 個主題的模型。
    • https://ithelp.ithome.com.tw/upload/images/20200926/20128558jcsanCaWDX.png
    • https://ithelp.ithome.com.tw/upload/images/20200926/201285581nu64tAhY5.png
    • 以上的兩張圖來自於兩個主題,每張圖分成三部分:
      • (上):120 年來該主題的變化。
      • (下左):文字的後驗機率(每張圖三個字,注意三個字的量級不一定一樣(作者也沒給單位))。
      • (下右):每年相關的文章。
  • 實驗2:
    • 測試是否能基於時間點 t 的模型預測時間點 t + 1 的文章。
      • 這裡的預測是用 variational bound 來衡量,算出下一年文章的 negative log likelihood 總和。
    • 三種模型:
      • DTM (本文)
      • 用過去所有年份的資料 (t0 ~ t) 訓練出來的 LDA 。
      • 用過去一年的資料 (t) 訓練出來的 LDA 。
    • 結果:
      • https://ithelp.ithome.com.tw/upload/images/20200926/20128558pFQqVeTfgC.png
      • 可以看到 DTM 的數值最低表現最好。

Thoughts

  • 不知道是不是因為 t 是 t-1 的函數,每年的文字變化還蠻細微的。
  • 蠻多重複的字一再出現,如 theory,有點好奇在 science 這樣的文本中,theory 這個詞不會出現在各個 topic 裡嗎?
  • Matter 這個詞逐漸式微,和下面的 nerve 被 neuron 比下去一樣。研究的客體總是單位越來越小,越來越精確?
  • quantum 這個詞展現了什麼叫做文藝復興,應該也要拿 ML 相關的文章來做做看,看是否 Neural Network 也是這樣的趨勢。

上一篇
[D11] Dynamic topic models (Blei and Lafferty, 2006) 1/2
下一篇
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言