[D7] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 1/2

12th鐵人賽

victor.huang

2020-09-21 23:04:17

1092 瀏覽

分享至

Paper Link

ECIR 2011
https://link.springer.com/chapter/10.1007/978-3-642-20161-5_34
https://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=2374&context=sis_research

Key Points

本文旨在回答以下幾個問題：
1. Twitter 與傳統媒體涵蓋的主題的種類與類型是否相似？
2. Twitter 是否涵蓋某些傳統媒體極少涉及的主題，或者反過來的話又有哪些主題呢？如果有的話，這些主題共有的特徵是什麼？
3. 在 Twitter 上，是否某些特定種類和類型的主題較容易吸引較多評論？
4. 在 Twitter 上，是否某些特定種類和類型的主題較容易被傳播出去？
經過實驗觀察，可以得到以下的回答：
1. Twitter 與傳統媒體涵蓋的主題大致相近，但是分佈不相同。
2. Twitter 用戶較常發表個人生活與流行文化相關的內容，全球事件則較少。
3. Twitter 涵蓋較多名人與品牌，其中有些熱門話題甚至可能未見於傳統媒體。（網紅？）
4. 雖然 Twitter 用戶發表較少全球事件，但他們活躍地轉貼相關文章，這使得新聞傳遞的更快。
資料集
1. 時間跨度：2009/ 11 ~ 2010/ 2。
2. Twitter 資料集來自於 Edinburgh Twitter Corpus。
3. 傳統媒體資料集則爬取 New York Times (NYT) 的文章。
4. 前處理：
  1. 移除所有功能詞。
  2. 移除所有出現在超過 70% 文章裡的詞。
  3. Twitter 的額外處理：移除所有長度短於 3 的 tweet，以及發少於 8 篇 tweet 的用戶。
定義：
1. Topic 是一篇或多篇文章討論的主體。可以是命名實體或者是新聞事件。每個 Topic 表現為文字的多項式分佈。
2. Topic Category (種類) 指涉的是多個 Topic 構成的一個更一般性的領域。
  - 在這篇文章中作為一種標籤 (ground truth)，用以比較兩個資料集訓練出來的 Topic Model。
3. Topic Type (類型) ，文章再將每個 Topic 細分成 event-oriented topics、 entity-oriented topics 和 long-standing topics 三種。
  - 在這篇文章中作為一種標籤，用以比較兩個資料集訓練出來的 Topic Model。
模型：
- 對於 NYT 使用經典 LDA 模型。
  - Topic 數量設為 100。
- 對於 Twitter 的 LDA 模型則額外引入作者資訊，並將每個文章視為只含有一個主題。
  - 是故，當某 Twitter 用戶開始寫文章的時候，他先從眾多的自己的 Topic 裡面挑一個出來。
  - 書寫每一個字的時候，當下決定，從這個挑出來的 Topic 裡面挑一個字出來；或者從背景 Topic 裡挑一個字出來。
    - 背景 Topic 為的是捕捉與主題無關的一些常用詞彙。
  - Topic 數量設為 110。
  - 與兩個基本模型做比較
    - 分別為
      - 經典 LDA
      - Author Topic LDA
        
        把同作者的所有文章當作一篇大文章，並套用經典 LDA 。
    - 評分依據
      - 請兩位研究生評分
      - 分為三級，
        
        1 有意義且連貫
        
        0.5 涵括多個主題或有不相關的字
        
        0 完全無法作為主題
      - 分數如下，由此可見改良版的模型較現有模型好。
標記種類
- NYT 本來就帶有類型標記，現在要做的是把每個主題標上他們的類型。
  - 如果一個主題與多個同標記的文章相關，則該主題很有可能是這個標記。
  - 主題對應的類型標記 q* 獲得的方式為
    - 1式用貝氏定理轉為 2式，則分母的 p(t) 沒有意義移除，又假設每個標籤的重要性均等，得到最右邊的式子。
    - 而 p(t|q) 如上式計算可獲得。
  - 但總有不屬於哪一種標籤的主題，這裡計算出每個主題的 Category Entropy 分數排除之。
    - 如 CE 過大，代表這個主題屬於多個標籤，則視為噪聲或背景主題。
      - 由實驗得，閾值設為 3.41。
- Twitter 並未自帶主題，於是作者試圖把 Twitter 主題對齊於 NYT 主題。
  - 作者計算 JS散度作為分數（因為這是個對稱的指標），如果散度小於閾值，代表相似。
  - 對於任一 Twitter 主題 (t)和 NYT 主題 (t')可得散度如下
  - 但若未達閾值，仍需要手工分類，分成特定的主題或是背景主題。
    - 所以仍然算是人工標記。
標記類型
- 純人工標記成 event-oriented topics、 entity-oriented topics 和 long-standing topics 三種。