技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
16
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
16
篇
[D16] Emotion Intensities in Tweets (2017) 1/2
12th鐵人賽
victor.huang
2020-09-30 21:16:20
825 瀏覽
分享至
Key Points
大部分情緒相關資料集,只有涵括分類,而沒有情緒的強度。
Best–Worst Scaling (BWS) 標記法 (Louviere, 1991))
可以有效率的標記資料,效果也相當不錯。
給一個 4 元組,請標記者標出
最相符
(分數最高)與
最不相符者
(分數最低)。
這樣的話,總共只有六組的順序關係,可以輕易獲得其中五組。
e.g. A B C D
若 A 最相符(分數最高),D 最不相符(分數最低)。
可以得到 A > D, B > D, C > D, A > C, A > B,僅有 B > C 沒得到而已。
有效地減輕標記者的負擔。
過去的方法,請標記者標出 1 到 100 分的分數,並不容易。
兩個標記者對於何為 80 分的定義就不同了。
同一個標記者在於不同時間點,也可能會標出不一樣的結果。
粒度太細,概念太模糊。
標記者對於不同的數字的認知也不會是線性的:scale region bias。
資料集收集:
為了瞭解每個詞的強度,對於每種情緒都先收集50 ~ 100 個 query terms。
如生氣的話會是:angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
從 Roget’s Thesaurus 收集而來。
這個字典已經把大量的詞彙分群,並且每個群也給了其代表詞(head word)。
用 Twitter API 搜尋帶有 query term 的 tweets。
丟棄 Retweets 和帶有 URL 的 tweets。
為了較為平均的對待每種情緒,資料集又做了以下的過濾。
每個 query term 至多包含 50 個 tweets 。
每個 使用者-query term 組合至多出現一次。
避免找到太偏個人化的用法。
為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受,以以下的方式建立了一個子資料集。
鎖定 query term 以 hashtag 形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
這樣才不會打亂內文。
另一方面對於標記者來說,他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
如果是在內文中,很可能被前後文影響。
移除這些文章中的 hashtag query term。
最後資料集(7,097 筆)由三個部分構成:
Hashtag Query Term Tweets (HQT Tweets):1030 筆
query term 以 hashtag 的形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
No Query Term Tweets (NQT Tweets):1030 筆
複製上面的子資料集,但是移除 hashtag query term。
Query Term Tweets (QT Tweets):5037 筆
來自兩種來源:
有 query term 出現在內文中。
有 query term hashtag 和其他非 hashtag 文字。
資料集標記:
按照 BWS 標記法,給標記者 4 元組,標出最相符與最不相符。
4 元組按照 random maximum-diversity selection (RMDS) 產生。
最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
因為一篇只標出最高和最低,要是有重複的兩個出現在不同的四元組,又剛好都是最高和最低,那兩篇標記就只發揮了一篇標記的作用了。
具體怎麼做的並不清楚。
提出了 2 * 7,097 個四元組讓人標記。
用 CrowdFlower 標記,每個四元組會由三個人標記。
BWS 標記的結果,用簡單的方式轉換成分數。
某 tweet 被標成最相符的次數,減掉被標成最不相符的次數,除以總出現次數。
結值域在 [-1, 1],但情緒分數是單極分數(unipolar scale),故再平移收縮轉換成 [0, 1]。
留言
追蹤
檢舉
上一篇
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
下一篇
[D17] Emotion Intensities in Tweets (2017) 2/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22200
篇
完賽人數
602
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
熟識南投軟體工程師推薦
如何練國考資訊題?
筆電無法使用usb開機重裝系統
CCNA相關問題詢問
電商在販售商品時,可以自行縮短保固期限嗎?
求救 有人會修改cookie權限嗎
python scrapy pipeline實作問題請教
防火牆互通問題
函數問題
桌面的使用者文件圖標壞掉
熱門回答
防火牆互通問題
筆電無法使用usb開機重裝系統
if函數中的>&<&=是否可以使用儲存格代替
熟識南投軟體工程師推薦
開啟Microsoft Edge 瀏覽器無法開啟網頁,出現錯誤訊息
熱門文章
每日一篇學習筆記 直到我做完專題 :( [Day1]
[翻譯]使用AI工具寫程式碼時如何避免「AI幻覺」?
每日一篇學習筆記 直到我做完專題 :( [Day2]
每日一篇學習筆記 直到我做完專題 :( [Day3]
每日一篇學習筆記 直到我做完專題 :( [Day4]
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}