iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 13
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 13

[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2

  • 分享至 

  • xImage
  •  

Paper Link

ACL 2014
https://www.aclweb.org/anthology/P14-1016.pdf

Key Points

  • 本文旨在預測網路使用者個人資訊(profile)。
  • 主要貢獻:
    • 把預測任務轉換成資訊抽取任務。
    • 提出一個大規模的資料集。
    • 呈現資訊抽取任務的形式帶來的好處。
    • 呈現此篇文章提出的模型的效果。
  • 過去文獻:
    • Distant Supervision
      • 利用現有的資料庫裡面的人物與其關係,蒐集訓練文本中可能描述這個關係的文字。
    • Homophily
      • 利用社群網路上鄰居的資訊來獲得目標使用者的個人資訊。
        • 同質性高的人們在社群網路上總是相連的。
      • Mislove et al. 曾從 Facebook 上爬下 4000 個 Rice U. 的學生並純粹基於網絡資訊來預測該學生的主修和預科。
        • 但其並未使用作者的文字資訊。
  • 資料庫收集
    • 教育與工作
      • 從 Google+ API 裡面蒐集帶有以下三個資訊的使用者。
        • 工作
        • 教育
        • Twitter 帳號
      • 再從這些種子使用者裡面,找到同時在 Twitter 上與在 Google Circle 上都存在的好友/追蹤者。
        • 這些好友也要帶有工作和教育資訊。
      • 蒐集該使用者的所有帶有工作和教育相關的貼文,作為正資料集,其餘作為負資料集。
      • 用 Freebase API 來對應別名,如 Harvard U. -> Harvard University。
    • 婚姻
      • 只有臉書有婚姻資訊,但公開的使用者不多。
      • 退而求其次用 FreeBase 裡面的人物與關係。
        • 這裡的人物幾乎都是名人,如歐巴馬。
      • 貼文的收集方法一樣。
        • 但不知道這些名人描述婚姻的方式是否與一般人相同?
      • 與工作和教育不同,婚姻不具 Homophily。
      • 但具 Reflexivity。
        • 所以若 a 與 b 為婚姻關係。
        • 那我們 a 提及 b 的貼文和 b 提及 a 的貼文都會收集。
    • 資料集收集結果如下
    • https://ithelp.ithome.com.tw/upload/images/20200927/201285582g5wPaSHJm.png

[未完待續]


上一篇
[D12] Dynamic topic models (Blei and Lafferty, 2006) 2/2
下一篇
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言