iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 16
0
AI & Data

今晚,我想來點經典NLP論文。系列 第 16

[D16] Emotion Intensities in Tweets (2017) 1/2

Key Points

  • 大部分情緒相關資料集,只有涵括分類,而沒有情緒的強度。
  • Best–Worst Scaling (BWS) 標記法 (Louviere, 1991))
    • 可以有效率的標記資料,效果也相當不錯。
    • 給一個 4 元組,請標記者標出最相符(分數最高)與最不相符者(分數最低)。
      • 這樣的話,總共只有六組的順序關係,可以輕易獲得其中五組。
      • e.g. A B C D
        • 若 A 最相符(分數最高),D 最不相符(分數最低)。
        • 可以得到 A > D, B > D, C > D, A > C, A > B,僅有 B > C 沒得到而已。
      • 有效地減輕標記者的負擔。
    • 過去的方法,請標記者標出 1 到 100 分的分數,並不容易。
      • 兩個標記者對於何為 80 分的定義就不同了。
      • 同一個標記者在於不同時間點,也可能會標出不一樣的結果。
        • 粒度太細,概念太模糊。
      • 標記者對於不同的數字的認知也不會是線性的:scale region bias。
  • 資料集收集:
    • 為了瞭解每個詞的強度,對於每種情緒都先收集50 ~ 100 個 query terms。
      • 如生氣的話會是:angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
      • 從 Roget’s Thesaurus 收集而來。
        • 這個字典已經把大量的詞彙分群,並且每個群也給了其代表詞(head word)。
    • 用 Twitter API 搜尋帶有 query term 的 tweets。
      • 丟棄 Retweets 和帶有 URL 的 tweets。
    • 為了較為平均的對待每種情緒,資料集又做了以下的過濾。
      • 每個 query term 至多包含 50 個 tweets 。
      • 每個 使用者-query term 組合至多出現一次。
        • 避免找到太偏個人化的用法。
    • 為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受,以以下的方式建立了一個子資料集。
      • 鎖定 query term 以 hashtag 形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
        • 這樣才不會打亂內文。
        • 另一方面對於標記者來說,他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
          • 如果是在內文中,很可能被前後文影響。
      • 移除這些文章中的 hashtag query term。
    • 最後資料集(7,097 筆)由三個部分構成:
      • Hashtag Query Term Tweets (HQT Tweets):1030 筆
        • query term 以 hashtag 的形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
      • No Query Term Tweets (NQT Tweets):1030 筆
        • 複製上面的子資料集,但是移除 hashtag query term。
      • Query Term Tweets (QT Tweets):5037 筆
        • 來自兩種來源:
          • 有 query term 出現在內文中。
          • 有 query term hashtag 和其他非 hashtag 文字。
  • 資料集標記:
    • 按照 BWS 標記法,給標記者 4 元組,標出最相符與最不相符。
    • 4 元組按照 random maximum-diversity selection (RMDS) 產生。
      • 最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
        • 因為一篇只標出最高和最低,要是有重複的兩個出現在不同的四元組,又剛好都是最高和最低,那兩篇標記就只發揮了一篇標記的作用了。
      • 具體怎麼做的並不清楚。
    • 提出了 2 * 7,097 個四元組讓人標記。
      • 用 CrowdFlower 標記,每個四元組會由三個人標記。
    • BWS 標記的結果,用簡單的方式轉換成分數。
      • 某 tweet 被標成最相符的次數,減掉被標成最不相符的次數,除以總出現次數。
      • 結值域在 [-1, 1],但情緒分數是單極分數(unipolar scale),故再平移收縮轉換成 [0, 1]。

上一篇
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
下一篇
[D17] Emotion Intensities in Tweets (2017) 2/2
系列文
今晚,我想來點經典NLP論文。17
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言