[D6] 今晚在夯什麼：Finding Bursty Topics from Microblogs (Diao et al., 2012 )

12th鐵人賽

victor.huang

2020-09-20 21:16:24

762 瀏覽

分享至

TL;DR

此篇文章提出一個針對時序短網誌改進的 LDA 模型，目的在於偵測網路事件的爆發。相較於經典 LDA，此篇文章的模型引入時間變數，用以模擬在相近時間點出現的文章較有可能是相關文章的性質；也引入作者變數，用以模擬作者發文的偏好：發表個人興趣相關的文章，或者是重大事件的文章。並另外提出兩種簡化版本，作為這兩個設計的效能比較指標。在作者自行收集的 Twitter 資料集上，表現良好。質性分析的結果也顯示，此篇文章提出的模型捕捉的主題內容較為合理，且較為可靠。

Paper Link

ACL 2012
Finding Bursty Topics from Microblogs
https://www.aclweb.org/anthology/P12-1056/

Key Points

新的模型對於文章的產生與 LDA 稍有不同。
- 引入時間：時間相近的發文較有可能是相同的事件。
- 引入作者：短網誌內容大部分是在描述自己的生活，為了區分作者是在書寫自己的生活，或是在對重大事件表示意見，我們需要了解每個作者在書寫自己生活時使用的詞彙。
- 引入背景主題：用來涵括所有非主題相關的常見詞。
文章構成模型
- 抽出背景主題的用詞分佈φB、抽出選擇書寫個人生活或重大事件的分佈 π、抽出選擇用背景主題的詞彙或是選擇用事件相關主題的詞彙的分佈 ρ。
- 對於每個時間點 t ，抽出當時重大事件主題分佈θt。
- 對於每個使用者 u ，抽出其個人生活主題分佈 ηu。
- 對於每個主題 c ，抽出其用詞分佈 φc。
- 對於每篇文章 i
  - 從 Bernoulli (π) 分佈中抽出 yi 選擇以下兩者：
    - 書寫個人生活:從多項式分佈 (ηui)抽取主題 zi。
    - 書寫重大事件:從多項式分佈(θti) 抽取主題 zi。
  - 則文章中的每一個字 j
    - 從 Bernoulli(ρ)決定從哪種主題中抽取詞彙。
      - 從背景主題 φB
      - 從事件主題 φzi
- 另外提出兩個簡化的版本，分別是只有時間(TimeLDA)，另一個是只有作者(UserLDa)，則完整版的則是 TimeUserLDA。
事件爆發偵測方法
- 基於 Adaptive Event Detection with Time–Varying Poisson Processes 的方法 (KDD 2016)。
資料集收集
- 原始資料集涵括了 151,055 個用戶，這是從一些手工收集的用戶入手，然後收集這些用戶在 2-hop 內的追隨者或被追隨者。
- 為了縮小資料集，隨機抽取了 2892 個用戶。
- 日期範圍為 2011/ 09/ 01 ~ 2011/ 11/ 30。
  - 則時間區間為 1 - 91 。
- 其結果是收集了3,967,927 個 tweets 和總共 24,280,638 個詞彙。
- 標記：
  - 找個兩個研究生來標記
  - Cohen’s kappa 為 0.64
實驗結果：
- - TimeUserLDA 表現最優
  - TimeUserLDA 抽出來的前五個主題重複度較低，抽出來的主題皆有意義。
  - 傳統LDA容易抓到無意義主題。
質性分析
- - 由某主題事件強度可以看出來，TimeLDA 和 UserTimeLDA 比起 UserLDA 更能抓住重大事件的爆發，這顯示了時間變數對於模擬事件時序的重要性。
未來展望
- 目前的模型都還是回顧性的、離線的去做偵測，如果可以做到實時偵測的話就更好了。
- 主題數仍然必須事先給定的。