[D16] Emotion Intensities in Tweets (2017) 1/2

12th鐵人賽

victor.huang

2020-09-30 21:16:20

1066 瀏覽

分享至

Key Points

大部分情緒相關資料集，只有涵括分類，而沒有情緒的強度。
Best–Worst Scaling (BWS) 標記法（Louviere, 1991)）
- 可以有效率的標記資料，效果也相當不錯。
- 給一個 4 元組，請標記者標出最相符（分數最高）與最不相符者（分數最低）。
  - 這樣的話，總共只有六組的順序關係，可以輕易獲得其中五組。
  - e.g. A B C D
    - 若 A 最相符（分數最高），D 最不相符（分數最低）。
    - 可以得到 A > D, B > D, C > D, A > C, A > B，僅有 B > C 沒得到而已。
  - 有效地減輕標記者的負擔。
- 過去的方法，請標記者標出 1 到 100 分的分數，並不容易。
  - 兩個標記者對於何為 80 分的定義就不同了。
  - 同一個標記者在於不同時間點，也可能會標出不一樣的結果。
    - 粒度太細，概念太模糊。
  - 標記者對於不同的數字的認知也不會是線性的：scale region bias。
資料集收集：
- 為了瞭解每個詞的強度，對於每種情緒都先收集50 ~ 100 個 query terms。
  - 如生氣的話會是：angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
  - 從 Roget’s Thesaurus 收集而來。
    - 這個字典已經把大量的詞彙分群，並且每個群也給了其代表詞（head word）。
- 用 Twitter API 搜尋帶有 query term 的 tweets。
  - 丟棄 Retweets 和帶有 URL 的 tweets。
- 為了較為平均的對待每種情緒，資料集又做了以下的過濾。
  - 每個 query term 至多包含 50 個 tweets 。
  - 每個使用者-query term 組合至多出現一次。
    - 避免找到太偏個人化的用法。
- 為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受，以以下的方式建立了一個子資料集。
  - 鎖定 query term 以 hashtag 形式出現，且出現在純由 hashtags 構成的文章後半段的文章。
    - 這樣才不會打亂內文。
    - 另一方面對於標記者來說，他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
      - 如果是在內文中，很可能被前後文影響。
  - 移除這些文章中的 hashtag query term。
- 最後資料集（7,097 筆）由三個部分構成：
  - Hashtag Query Term Tweets (HQT Tweets)：1030 筆
    - query term 以 hashtag 的形式出現，且出現在純由 hashtags 構成的文章後半段的文章。
  - No Query Term Tweets (NQT Tweets)：1030 筆
    - 複製上面的子資料集，但是移除 hashtag query term。
  - Query Term Tweets (QT Tweets)：5037 筆
    - 來自兩種來源：
      - 有 query term 出現在內文中。
      - 有 query term hashtag 和其他非 hashtag 文字。
資料集標記：
- 按照 BWS 標記法，給標記者 4 元組，標出最相符與最不相符。
- 4 元組按照 random maximum-diversity selection (RMDS) 產生。
  - 最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
    - 因為一篇只標出最高和最低，要是有重複的兩個出現在不同的四元組，又剛好都是最高和最低，那兩篇標記就只發揮了一篇標記的作用了。
  - 具體怎麼做的並不清楚。
- 提出了 2 * 7,097 個四元組讓人標記。
  - 用 CrowdFlower 標記，每個四元組會由三個人標記。
- BWS 標記的結果，用簡單的方式轉換成分數。
  - 某 tweet 被標成最相符的次數，減掉被標成最不相符的次數，除以總出現次數。
  - 結值域在 [-1, 1]，但情緒分數是單極分數（unipolar scale），故再平移收縮轉換成 [0, 1]。