技術問答
技術文章
iT 徵才
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
16
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
16
篇
[D16] Emotion Intensities in Tweets (2017) 1/2
12th鐵人賽
victor.huang
2020-09-30 21:16:20
966 瀏覽
分享至
Key Points
大部分情緒相關資料集,只有涵括分類,而沒有情緒的強度。
Best–Worst Scaling (BWS) 標記法 (Louviere, 1991))
可以有效率的標記資料,效果也相當不錯。
給一個 4 元組,請標記者標出
最相符
(分數最高)與
最不相符者
(分數最低)。
這樣的話,總共只有六組的順序關係,可以輕易獲得其中五組。
e.g. A B C D
若 A 最相符(分數最高),D 最不相符(分數最低)。
可以得到 A > D, B > D, C > D, A > C, A > B,僅有 B > C 沒得到而已。
有效地減輕標記者的負擔。
過去的方法,請標記者標出 1 到 100 分的分數,並不容易。
兩個標記者對於何為 80 分的定義就不同了。
同一個標記者在於不同時間點,也可能會標出不一樣的結果。
粒度太細,概念太模糊。
標記者對於不同的數字的認知也不會是線性的:scale region bias。
資料集收集:
為了瞭解每個詞的強度,對於每種情緒都先收集50 ~ 100 個 query terms。
如生氣的話會是:angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
從 Roget’s Thesaurus 收集而來。
這個字典已經把大量的詞彙分群,並且每個群也給了其代表詞(head word)。
用 Twitter API 搜尋帶有 query term 的 tweets。
丟棄 Retweets 和帶有 URL 的 tweets。
為了較為平均的對待每種情緒,資料集又做了以下的過濾。
每個 query term 至多包含 50 個 tweets 。
每個 使用者-query term 組合至多出現一次。
避免找到太偏個人化的用法。
為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受,以以下的方式建立了一個子資料集。
鎖定 query term 以 hashtag 形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
這樣才不會打亂內文。
另一方面對於標記者來說,他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
如果是在內文中,很可能被前後文影響。
移除這些文章中的 hashtag query term。
最後資料集(7,097 筆)由三個部分構成:
Hashtag Query Term Tweets (HQT Tweets):1030 筆
query term 以 hashtag 的形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
No Query Term Tweets (NQT Tweets):1030 筆
複製上面的子資料集,但是移除 hashtag query term。
Query Term Tweets (QT Tweets):5037 筆
來自兩種來源:
有 query term 出現在內文中。
有 query term hashtag 和其他非 hashtag 文字。
資料集標記:
按照 BWS 標記法,給標記者 4 元組,標出最相符與最不相符。
4 元組按照 random maximum-diversity selection (RMDS) 產生。
最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
因為一篇只標出最高和最低,要是有重複的兩個出現在不同的四元組,又剛好都是最高和最低,那兩篇標記就只發揮了一篇標記的作用了。
具體怎麼做的並不清楚。
提出了 2 * 7,097 個四元組讓人標記。
用 CrowdFlower 標記,每個四元組會由三個人標記。
BWS 標記的結果,用簡單的方式轉換成分數。
某 tweet 被標成最相符的次數,減掉被標成最不相符的次數,除以總出現次數。
結值域在 [-1, 1],但情緒分數是單極分數(unipolar scale),故再平移收縮轉換成 [0, 1]。
留言
追蹤
檢舉
上一篇
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
下一篇
[D17] Emotion Intensities in Tweets (2017) 2/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
902
組
團體組數
37
組
累計文章數
19845
篇
完賽人數
528
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
17th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
linux
windows server
css
react
熱門問題
EPSON LQ-690C 印表機中一刀跑版
[Javascript] 非同步執行,如何延緩後面程式的處理 ??
AARQ 通訊協議是?
印表機設定 - Epson 690c
FortiGate SSLVPN替代方案?
Dell or Asus 伺服器,哪牌比較好?
Dell or Asus Storage 或NAS,哪牌比較好?
將硬碟上的 EFI 分割區複製到固態硬碟後,ARM 架構的 Ubuntu Server 無法啟動
sdray vigor2927 sslvpn ip設定問題
iT邦幫忙如何搜尋 關鍵字?
熱門回答
FortiGate SSLVPN替代方案?
EPSON LQ-690C 印表機中一刀跑版
[Javascript] 非同步執行,如何延緩後面程式的處理 ??
印表機設定 - Epson 690c
Dell or Asus 伺服器,哪牌比較好?
熱門文章
Vue 3 生命週期(Lifecycle) 四大階段 建立(Create)、掛載(Mount)、更新(Update)、 銷毀(Unmount)
台灣職場必學的Excel函數技巧
VScode 開發應用系統專案(8-1) - Spring Boot Security 設定與認證前置準備
什麼是四大報表及其組成?完整解析
c++的.h和cpp,放在相同目錄下好,還是頂層就用include,src分開好? [搬運/問答]
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}