iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 8
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 8

[D8] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 2/2

  • 分享至 

  • xImage
  •  

Key Points

注意經過人工標記後,我們已經可以知道每篇文章的類型了。
NYT news -> category label
Tweet -> topic -> category label

  1. 基於標籤的比較
    1. 比較種類:
      • 用各主題所佔的 文章數 / 用戶數 來表示主題的分佈強弱。
      • https://ithelp.ithome.com.tw/upload/images/20200922/201285581YLGaOyAx0.png
      • https://ithelp.ithome.com.tw/upload/images/20200922/20128558ZRXqLw2vgi.png
      • https://ithelp.ithome.com.tw/upload/images/20200922/20128558wduaEb7jWU.png
      • 結果
        • NYT 和 Twitter 都有涵括藝術,但時尚在 Twitter 上面比較熱門。
    2. 比較類型:
      • https://ithelp.ithome.com.tw/upload/images/20200922/20128558sE9r00ga6X.png
      • NYT 有比較多 event-oriented
      • Twitter 有比較多 entity-oriented
        • 大部分是名人與公司品牌
  2. 主題涵蓋率之比較
    • 雖然把各個 topic 分成不同類型(如時尚),但兩邊的時尚指的是相同的時尚嗎?
    • 以下抽出一些特定的主題並把該主題的一些關鍵字提出來。
      • 這邊沒有說關鍵字是如何獲得的,有可能是人工挑出來的。
      • https://ithelp.ithome.com.tw/upload/images/20200922/20128558z6zMUT4WtE.png
    • 藝術在兩個資集中都常見,但涵蓋的面向不同
      • 如 Twitter 上較常提到名人如 lady gaga
      • NYT 上較常提到博物館和歷史

上一篇
[D7] Comparing Twitter and Traditional Media using Topic Models (Zhao et al., 2011) 1/2
下一篇
[D9] GSDMM (Yin and Wang, 2014) 1/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言