[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2

12th鐵人賽

victor.huang

2020-09-27 20:35:03

846 瀏覽

分享至

Paper Link

ACL 2014
https://www.aclweb.org/anthology/P14-1016.pdf

Key Points

本文旨在預測網路使用者個人資訊（profile）。
主要貢獻：
- 把預測任務轉換成資訊抽取任務。
- 提出一個大規模的資料集。
- 呈現資訊抽取任務的形式帶來的好處。
- 呈現此篇文章提出的模型的效果。
過去文獻：
- Distant Supervision
  - 利用現有的資料庫裡面的人物與其關係，蒐集訓練文本中可能描述這個關係的文字。
- Homophily
  - 利用社群網路上鄰居的資訊來獲得目標使用者的個人資訊。
    - 同質性高的人們在社群網路上總是相連的。
  - Mislove et al. 曾從 Facebook 上爬下 4000 個 Rice U. 的學生並純粹基於網絡資訊來預測該學生的主修和預科。
    - 但其並未使用作者的文字資訊。
資料庫收集
- 教育與工作
  - 從 Google+ API 裡面蒐集帶有以下三個資訊的使用者。
    - 工作
    - 教育
    - Twitter 帳號
  - 再從這些種子使用者裡面，找到同時在 Twitter 上與在 Google Circle 上都存在的好友/追蹤者。
    - 這些好友也要帶有工作和教育資訊。
  - 蒐集該使用者的所有帶有工作和教育相關的貼文，作為正資料集，其餘作為負資料集。
  - 用 Freebase API 來對應別名，如 Harvard U. -> Harvard University。
- 婚姻
  - 只有臉書有婚姻資訊，但公開的使用者不多。
  - 退而求其次用 FreeBase 裡面的人物與關係。
    - 這裡的人物幾乎都是名人，如歐巴馬。
  - 貼文的收集方法一樣。
    - 但不知道這些名人描述婚姻的方式是否與一般人相同？
  - 與工作和教育不同，婚姻不具 Homophily。
  - 但具 Reflexivity。
    - 所以若 a 與 b 為婚姻關係。
    - 那我們 a 提及 b 的貼文和 b 提及 a 的貼文都會收集。
- 資料集收集結果如下