[D9] GSDMM (Yin and Wang, 2014) 1/2

12th鐵人賽

victor.huang

2020-09-23 20:16:03

1163 瀏覽

分享至

TL;DR

此文為了短文本分群提出一個機率圖模型，並為之提出一個 collapsed Gibbs Sampling 演算法，並另外提出一個類比情境，稱作電影小組過程，方便讀者理解模型。其優勢在於可以自動決定群數量，在效能表現上也優於 KMeans、HAC、DMAFP。在後續的實驗中，也對模型的兩個參數做了質性分析。

Paper Link

KDD 2014
Yin and Wang 2014
https://www.semanticscholar.org/paper/A-dirichlet-multinomial-mixture-model-based-for-Yin-Wang/d03ca28403da15e75bc3e90c21eab44031257e80?p2df

Key Points

本文模型可視為簡化版的 LDA，其差別在於，每篇文章都只有一個主題，故文章中的每個字，都是來自於同一個主題。文章與 LDA 相同，是採取 unigram 模型。
電影小組過程
- 這是作者用來介紹他們的 collapsed Gibbs Sampling 演算法的類比情境。
- 想像有一堂電影相關的課程，在第一天上課的時候，身為教授的你想要幫每個學生分進一個小組方便討論。
- 你請每個學生（文章）寫一下一張他們有興趣的電影短清單（文字），並輪流上來發表。
- 每一次有學生上來發表完之後，你要幫他分配到更適合他的組別（群），你可以遵循兩個原則：
  1. 分她到一個較大的組別。
  2. 分她到一個與她興趣相近的組別。
- 重複數次。
GSDMM 演算法
討論：
- 兩個參數 alpha & beta 的意義
  - 根據上式，在給定一篇文章（學生）(d) 和其他文章的主題（小組）的時候 (z ¬d)，我們把這篇文章的主題 (z d) 分到某個主題 (z) 的機率，可由上式獲得。
  - 當 alpha 為零的時候，代表該文章永遠不會分配到一個已經空的群。故 alpha 是對應到分組原則1。
  - 當 beta 為零的時候，代表該文章永遠不會分配到一個同群沒有文章有與她相同文字的群。正對應到原則 2。
    - i.e. 學生不會加入一個沒有共同有興趣的電影的小組。
- 與 Naive Bayes Classifier 的關係
  - 與 Bayesian Naive Bayes Classifier 很像，會把重複出現的字的次數用指數函數表示。
    - 對於一般的分類器來說這樣太過了。
    - 但是對於分群的情境似乎相當合適。
      - 我想是因為文字們太 sparse 了。
      - 沒對應上：很常見。
      - 有對應上：值得強調。
- 和 Topic Model 一樣都可以找到某主題中產生某詞的機率。
  - 就跟 LDA 一樣。
    - 有點好奇，他看起來就跟 LDA 一樣，這真的很意外嗎？
- 空間複雜度
  - KMeans: O(DV)
    - V 是 vocabulary 大小
    - D 是文章數量
  - GSDMM: O(DL)
    - L 是平均文本長度，以短文本而言，大致是 100 。
- 時間複雜度
  - KMEANS: O(KDS)
    - S 係指 centroid 數量
      - S 可能很大
        
        有點好奇 NLP 的 S 會設多大呢？
  - GSDMM: O(KDL)
    - 樂勝