iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 7
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 7

[D7] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 1/2

  • 分享至 

  • xImage
  •  

Paper Link

ECIR 2011
https://link.springer.com/chapter/10.1007/978-3-642-20161-5_34
https://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=2374&context=sis_research

Key Points

  1. 本文旨在回答以下幾個問題:
    1. Twitter 與傳統媒體涵蓋的主題的種類與類型是否相似?
    2. Twitter 是否涵蓋某些傳統媒體極少涉及的主題,或者反過來的話又有哪些主題呢?如果有的話,這些主題共有的特徵是什麼?
    3. 在 Twitter 上,是否某些特定種類和類型的主題較容易吸引較多評論?
    4. 在 Twitter 上,是否某些特定種類和類型的主題較容易被傳播出去?
  2. 經過實驗觀察,可以得到以下的回答:
    1. Twitter 與傳統媒體涵蓋的主題大致相近,但是分佈不相同。
    2. Twitter 用戶較常發表個人生活與流行文化相關的內容,全球事件則較少。
    3. Twitter 涵蓋較多名人與品牌,其中有些熱門話題甚至可能未見於傳統媒體。(網紅?)
    4. 雖然 Twitter 用戶發表較少全球事件,但他們活躍地轉貼相關文章,這使得新聞傳遞的更快。
  3. 資料集
    1. 時間跨度:2009/ 11 ~ 2010/ 2。
    2. Twitter 資料集來自於 Edinburgh Twitter Corpus。
    3. 傳統媒體資料集則爬取 New York Times (NYT) 的文章。
    4. 前處理:
      1. 移除所有功能詞。
      2. 移除所有出現在超過 70% 文章裡的詞。
      3. Twitter 的額外處理:移除所有長度短於 3 的 tweet,以及發少於 8 篇 tweet 的用戶。
  4. 定義:
    1. Topic 是一篇或多篇文章討論的主體。可以是命名實體或者是新聞事件。每個 Topic 表現為文字的多項式分佈。
    2. Topic Category (種類) 指涉的是多個 Topic 構成的一個更一般性的領域。
      • 在這篇文章中作為一種標籤 (ground truth),用以比較兩個資料集訓練出來的 Topic Model。
    3. Topic Type (類型) ,文章再將每個 Topic 細分成 event-oriented topics、 entity-oriented topics 和 long-standing topics 三種。
      • 在這篇文章中作為一種標籤,用以比較兩個資料集訓練出來的 Topic Model。
  5. 模型:
    • 對於 NYT 使用經典 LDA 模型。
      • Topic 數量設為 100。
    • 對於 Twitter 的 LDA 模型則額外引入作者資訊,並將每個文章視為只含有一個主題。
      • 是故,當某 Twitter 用戶開始寫文章的時候,他先從眾多的自己的 Topic 裡面挑一個出來。
      • 書寫每一個字的時候,當下決定,從這個挑出來的 Topic 裡面挑一個字出來;或者從背景 Topic 裡挑一個字出來。
        • 背景 Topic 為的是捕捉與主題無關的一些常用詞彙。
      • https://ithelp.ithome.com.tw/upload/images/20200921/20128558WjxrBOKjRU.png
      • Topic 數量設為 110。
      • 與兩個基本模型做比較
        • 分別為
          • 經典 LDA
          • Author Topic LDA
            • 把同作者的所有文章當作一篇大文章,並套用經典 LDA 。
        • 評分依據
          • 請兩位研究生評分
          • 分為三級,
            • 1 有意義且連貫
            • 0.5 涵括多個主題或有不相關的字
            • 0 完全無法作為主題
          • 分數如下,由此可見改良版的模型較現有模型好。
          • https://ithelp.ithome.com.tw/upload/images/20200921/20128558AIGkfqe3cU.png
  6. 標記種類
    • NYT 本來就帶有類型標記,現在要做的是把每個主題標上他們的類型。
      • 如果一個主題與多個同標記的文章相關,則該主題很有可能是這個標記。
      • 主題對應的類型標記 q* 獲得的方式為
        • https://ithelp.ithome.com.tw/upload/images/20200921/201285582W2QJmzdXJ.png
        • 1式用貝氏定理轉為 2式,則分母的 p(t) 沒有意義移除,又假設每個標籤的重要性均等,得到最右邊的式子。
        • https://ithelp.ithome.com.tw/upload/images/20200921/20128558MB2Xg81bPV.png
        • p(t|q) 如上式計算可獲得。
      • 但總有不屬於哪一種標籤的主題,這裡計算出每個主題的 Category Entropy 分數排除之。
        • https://ithelp.ithome.com.tw/upload/images/20200921/20128558wDdTaVYJ9C.png
        • 如 CE 過大,代表這個主題屬於多個標籤,則視為噪聲或背景主題。
          • 由實驗得,閾值設為 3.41。
    • Twitter 並未自帶主題,於是作者試圖把 Twitter 主題對齊於 NYT 主題。
      • 作者計算 JS散度作為分數(因為這是個對稱的指標),如果散度小於閾值,代表相似。
      • 對於任一 Twitter 主題 (t)和 NYT 主題 (t')可得 散度如下
        • https://ithelp.ithome.com.tw/upload/images/20200921/20128558IUu1C3YubL.png
      • 但若未達閾值,仍需要手工分類,分成特定的主題或是背景主題。
        • 所以仍然算是人工標記。
  7. 標記類型
    • 純人工標記成 event-oriented topics、 entity-oriented topics 和 long-standing topics 三種。
    • https://ithelp.ithome.com.tw/upload/images/20200922/20128558wZYZc9lKNX.png

[未完待續]


上一篇
[D6] 今晚在夯什麼:Finding Bursty Topics from Microblogs (Diao et al., 2012 )
下一篇
[D8] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 2/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言