iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 6
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 6

[D6] 今晚在夯什麼:Finding Bursty Topics from Microblogs (Diao et al., 2012 )

  • 分享至 

  • twitterImage
  •  

TL;DR

此篇文章提出一個針對時序短網誌改進的 LDA 模型,目的在於偵測網路事件的爆發。相較於經典 LDA,此篇文章的模型引入時間變數,用以模擬在相近時間點出現的文章較有可能是相關文章的性質;也引入作者變數,用以模擬作者發文的偏好:發表個人興趣相關的文章,或者是重大事件的文章。並另外提出兩種簡化版本,作為這兩個設計的效能比較指標。在作者自行收集的 Twitter 資料集上,表現良好。質性分析的結果也顯示,此篇文章提出的模型捕捉的主題內容較為合理,且較為可靠。

Paper Link

ACL 2012
Finding Bursty Topics from Microblogs
https://www.aclweb.org/anthology/P12-1056/

Key Points

  • 新的模型對於文章的產生與 LDA 稍有不同。

    • 引入時間:時間相近的發文較有可能是相同的事件。
    • 引入作者:短網誌內容大部分是在描述自己的生活,為了區分作者是在書寫自己的生活,或是在對重大事件表示意見,我們需要了解每個作者在書寫自己生活時使用的詞彙。
    • 引入背景主題:用來涵括所有非主題相關的常見詞。
  • 文章構成模型

    • https://ithelp.ithome.com.tw/upload/images/20200920/20128558d2zQoJupVW.png

    • 抽出背景主題的用詞分佈φB、抽出選擇書寫個人生活或重大事件的分佈 π、抽出選擇用背景主題的詞彙或是選擇用事件相關主題的詞彙的分佈 ρ

    • 對於每個時間點 t ,抽出當時重大事件主題分佈θt

    • 對於每個使用者 u ,抽出其個人生活主題分佈 ηu

    • 對於每個主題 c ,抽出其用詞分佈 φc

    • 對於每篇文章 i

      • 從 Bernoulli (π) 分佈中抽出 yi 選擇以下兩者:
        • 書寫個人生活:從多項式分佈 (ηui)抽取主題 zi
        • 書寫重大事件:從多項式分佈(θti) 抽取主題 zi
      • 則文章中的每一個字 j
        • 從 Bernoulli(ρ)決定從哪種主題中抽取詞彙。
          • 從背景主題 φB
          • 從事件主題 φzi
    • https://ithelp.ithome.com.tw/upload/images/20200920/20128558bkGZlBAXg9.png

    • 另外提出兩個簡化的版本,分別是只有時間(TimeLDA),另一個是只有作者(UserLDa),則完整版的則是 TimeUserLDA。

  • 事件爆發偵測方法

    • 基於 Adaptive Event Detection with Time–Varying Poisson Processes 的方法 (KDD 2016)。
  • 資料集收集

    • 原始資料集涵括了 151,055 個用戶,這是從一些手工收集的用戶入手,然後收集這些用戶在 2-hop 內的追隨者或被追隨者。
    • 為了縮小資料集,隨機抽取了 2892 個用戶。
    • 日期範圍為 2011/ 09/ 01 ~ 2011/ 11/ 30。
      • 則時間區間為 1 - 91 。
    • 其結果是收集了3,967,927 個 tweets 和總共 24,280,638 個詞彙。
    • 標記:
      • 找個兩個研究生來標記
      • Cohen’s kappa 為 0.64
  • 實驗結果:

    • https://ithelp.ithome.com.tw/upload/images/20200920/201285585aSoiMWHlF.png
      • TimeUserLDA 表現最優
      • https://ithelp.ithome.com.tw/upload/images/20200920/20128558a1RPpJ7MXA.png
      • TimeUserLDA 抽出來的前五個主題重複度較低,抽出來的主題皆有意義。
      • 傳統LDA容易抓到無意義主題。
  • 質性分析

    • https://ithelp.ithome.com.tw/upload/images/20200920/20128558Z8iRCMfVPr.png
      • 由某主題事件強度可以看出來,TimeLDA 和 UserTimeLDA 比起 UserLDA 更能抓住重大事件的爆發,這顯示了時間變數對於模擬事件時序的重要性。
  • 未來展望

    • 目前的模型都還是回顧性的、離線的去做偵測,如果可以做到實時偵測的話就更好了。
    • 主題數仍然必須事先給定的。

上一篇
[D5] Open Information Extraction using Wikipedia
下一篇
[D7] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 1/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言