iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 9
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 9

[D9] GSDMM (Yin and Wang, 2014) 1/2

  • 分享至 

  • xImage
  •  

TL;DR

此文為了短文本分群提出一個機率圖模型,並為之提出一個 collapsed Gibbs Sampling 演算法,並另外提出一個類比情境,稱作電影小組過程,方便讀者理解模型。其優勢在於可以自動決定群數量,在效能表現上也優於 KMeans、HAC、DMAFP。在後續的實驗中,也對模型的兩個參數做了質性分析。

Paper Link

KDD 2014
Yin and Wang 2014
https://www.semanticscholar.org/paper/A-dirichlet-multinomial-mixture-model-based-for-Yin-Wang/d03ca28403da15e75bc3e90c21eab44031257e80?p2df

Key Points

  • 本文模型可視為簡化版的 LDA,其差別在於,每篇文章都只有一個主題,故文章中的每個字,都是來自於同一個主題。文章與 LDA 相同,是採取 unigram 模型。
    • https://ithelp.ithome.com.tw/upload/images/20200923/20128558Rftv14KtjO.png
  • 電影小組過程
    • 這是作者用來介紹他們的 collapsed Gibbs Sampling 演算法的類比情境。
    • 想像有一堂電影相關的課程,在第一天上課的時候,身為教授的你想要幫每個學生分進一個小組方便討論。
    • 你請每個學生(文章)寫一下一張他們有興趣的電影短清單(文字),並輪流上來發表。
    • 每一次有學生上來發表完之後,你要幫他分配到更適合他的組別(群),你可以遵循兩個原則:
      1. 分她到一個較大的組別。
      2. 分她到一個與她興趣相近的組別。
    • 重複數次。
  • GSDMM 演算法
    • https://ithelp.ithome.com.tw/upload/images/20200923/20128558pZvUoXkhTW.png
  • 討論:
    • 兩個參數 alpha & beta 的意義
      • https://ithelp.ithome.com.tw/upload/images/20200923/20128558yRAlVLfNs7.png
      • 根據上式,在給定一篇文章 (學生)(d) 和其他文章的主題(小組)的時候 (z ¬d),我們把這篇文章的主題 (z d) 分到某個主題 (z) 的機率,可由上式獲得。
      • 當 alpha 為零的時候,代表該文章永遠不會分配到一個已經空的群。故 alpha 是對應到分組原則1。
      • 當 beta 為零的時候,代表該文章永遠不會分配到一個同群沒有文章有與她相同文字的群。正對應到原則 2。
        • i.e. 學生不會加入一個沒有共同有興趣的電影的小組。
    • 與 Naive Bayes Classifier 的關係
      • 與 Bayesian Naive Bayes Classifier 很像,會把重複出現的字的次數用指數函數表示。
        • 對於一般的分類器來說這樣太過了。
        • 但是對於分群的情境似乎相當合適。
          • 我想是因為文字們太 sparse 了。
          • 沒對應上:很常見。
          • 有對應上:值得強調。
    • 和 Topic Model 一樣都可以找到某主題中產生某詞的機率。
      • 就跟 LDA 一樣。
        • 有點好奇,他看起來就跟 LDA 一樣,這真的很意外嗎?
    • 空間複雜度
      • KMeans: O(DV)
        • V 是 vocabulary 大小
        • D 是文章數量
      • GSDMM: O(DL)
        • L 是平均文本長度,以短文本而言,大致是 100 。
    • 時間複雜度
      • KMEANS: O(KDS)
        • S 係指 centroid 數量
          • S 可能很大
            • 有點好奇 NLP 的 S 會設多大呢?
      • GSDMM: O(KDL)
        • 樂勝

[未完待續]


上一篇
[D8] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 2/2
下一篇
[D10] GSDMM (Yin and Wang, 2014) 2/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言