技術問答
技術文章
iT 徵才
Tag
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
16
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
16
篇
[D16] Emotion Intensities in Tweets (2017) 1/2
12th鐵人賽
victor.huang
2020-09-30 21:16:20
924 瀏覽
分享至
Key Points
大部分情緒相關資料集,只有涵括分類,而沒有情緒的強度。
Best–Worst Scaling (BWS) 標記法 (Louviere, 1991))
可以有效率的標記資料,效果也相當不錯。
給一個 4 元組,請標記者標出
最相符
(分數最高)與
最不相符者
(分數最低)。
這樣的話,總共只有六組的順序關係,可以輕易獲得其中五組。
e.g. A B C D
若 A 最相符(分數最高),D 最不相符(分數最低)。
可以得到 A > D, B > D, C > D, A > C, A > B,僅有 B > C 沒得到而已。
有效地減輕標記者的負擔。
過去的方法,請標記者標出 1 到 100 分的分數,並不容易。
兩個標記者對於何為 80 分的定義就不同了。
同一個標記者在於不同時間點,也可能會標出不一樣的結果。
粒度太細,概念太模糊。
標記者對於不同的數字的認知也不會是線性的:scale region bias。
資料集收集:
為了瞭解每個詞的強度,對於每種情緒都先收集50 ~ 100 個 query terms。
如生氣的話會是:angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
從 Roget’s Thesaurus 收集而來。
這個字典已經把大量的詞彙分群,並且每個群也給了其代表詞(head word)。
用 Twitter API 搜尋帶有 query term 的 tweets。
丟棄 Retweets 和帶有 URL 的 tweets。
為了較為平均的對待每種情緒,資料集又做了以下的過濾。
每個 query term 至多包含 50 個 tweets 。
每個 使用者-query term 組合至多出現一次。
避免找到太偏個人化的用法。
為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受,以以下的方式建立了一個子資料集。
鎖定 query term 以 hashtag 形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
這樣才不會打亂內文。
另一方面對於標記者來說,他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
如果是在內文中,很可能被前後文影響。
移除這些文章中的 hashtag query term。
最後資料集(7,097 筆)由三個部分構成:
Hashtag Query Term Tweets (HQT Tweets):1030 筆
query term 以 hashtag 的形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
No Query Term Tweets (NQT Tweets):1030 筆
複製上面的子資料集,但是移除 hashtag query term。
Query Term Tweets (QT Tweets):5037 筆
來自兩種來源:
有 query term 出現在內文中。
有 query term hashtag 和其他非 hashtag 文字。
資料集標記:
按照 BWS 標記法,給標記者 4 元組,標出最相符與最不相符。
4 元組按照 random maximum-diversity selection (RMDS) 產生。
最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
因為一篇只標出最高和最低,要是有重複的兩個出現在不同的四元組,又剛好都是最高和最低,那兩篇標記就只發揮了一篇標記的作用了。
具體怎麼做的並不清楚。
提出了 2 * 7,097 個四元組讓人標記。
用 CrowdFlower 標記,每個四元組會由三個人標記。
BWS 標記的結果,用簡單的方式轉換成分數。
某 tweet 被標成最相符的次數,減掉被標成最不相符的次數,除以總出現次數。
結值域在 [-1, 1],但情緒分數是單極分數(unipolar scale),故再平移收縮轉換成 [0, 1]。
留言
追蹤
檢舉
上一篇
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
下一篇
[D17] Emotion Intensities in Tweets (2017) 2/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
393
組
團體組數
13
組
累計文章數
2800
篇
最後報名日
9/15
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
17th鐵人賽
windows
php
c#
windows server
linux
css
react
熱門問題
中介系統的用處
不知道網路紅隊的要去那加公司
VMware vCenter Server 不明原因時間跑掉 憑證異常超成一連串異常
更換FW後Public IP service無法使用
鼎新ERP欄位可修改預設值嗎
Ansible 連線主機的 port 不是 22 遇到的問題
求檔案分級軟體\手機outlook簽核軟體推薦
備份映像檔
Outlook 寄件備份消失問題 (已解決)
請問有人遇過在lightsail上部屬fastapi失敗的案例?
熱門回答
鼎新ERP欄位可修改預設值嗎
不知道網路紅隊的要去那加公司
中介系統的用處
VMware vCenter Server 不明原因時間跑掉 憑證異常超成一連串異常
Ansible 連線主機的 port 不是 22 遇到的問題
熱門文章
什麼是 Signal ?
序: AI 加速編碼後,你該學什麼?
第10天,No-Code 快速上線又省錢 / 原汁排骨湯 台北最好喝的排骨湯(台北萬華)| 30天滷肉飯
第11天,LibreOffice 更省錢 / 司機俱樂部 宵夜好選擇(台北松山)| 30天滷肉飯
第12天,即時通訊軟體選擇 / 金峰滷肉飯 台北名店(台北中正)| 30天滷肉飯
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}