14.2%企業願意聘用大資料人才
Cloud Future Built Today
IT EXPLAINED 數位轉型攻略 VII
技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
16
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
16
篇
[D16] Emotion Intensities in Tweets (2017) 1/2
12th鐵人賽
victor.huang
2020-09-30 21:16:20
880 瀏覽
分享至
Key Points
大部分情緒相關資料集,只有涵括分類,而沒有情緒的強度。
Best–Worst Scaling (BWS) 標記法 (Louviere, 1991))
可以有效率的標記資料,效果也相當不錯。
給一個 4 元組,請標記者標出
最相符
(分數最高)與
最不相符者
(分數最低)。
這樣的話,總共只有六組的順序關係,可以輕易獲得其中五組。
e.g. A B C D
若 A 最相符(分數最高),D 最不相符(分數最低)。
可以得到 A > D, B > D, C > D, A > C, A > B,僅有 B > C 沒得到而已。
有效地減輕標記者的負擔。
過去的方法,請標記者標出 1 到 100 分的分數,並不容易。
兩個標記者對於何為 80 分的定義就不同了。
同一個標記者在於不同時間點,也可能會標出不一樣的結果。
粒度太細,概念太模糊。
標記者對於不同的數字的認知也不會是線性的:scale region bias。
資料集收集:
為了瞭解每個詞的強度,對於每種情緒都先收集50 ~ 100 個 query terms。
如生氣的話會是:angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
從 Roget’s Thesaurus 收集而來。
這個字典已經把大量的詞彙分群,並且每個群也給了其代表詞(head word)。
用 Twitter API 搜尋帶有 query term 的 tweets。
丟棄 Retweets 和帶有 URL 的 tweets。
為了較為平均的對待每種情緒,資料集又做了以下的過濾。
每個 query term 至多包含 50 個 tweets 。
每個 使用者-query term 組合至多出現一次。
避免找到太偏個人化的用法。
為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受,以以下的方式建立了一個子資料集。
鎖定 query term 以 hashtag 形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
這樣才不會打亂內文。
另一方面對於標記者來說,他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
如果是在內文中,很可能被前後文影響。
移除這些文章中的 hashtag query term。
最後資料集(7,097 筆)由三個部分構成:
Hashtag Query Term Tweets (HQT Tweets):1030 筆
query term 以 hashtag 的形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
No Query Term Tweets (NQT Tweets):1030 筆
複製上面的子資料集,但是移除 hashtag query term。
Query Term Tweets (QT Tweets):5037 筆
來自兩種來源:
有 query term 出現在內文中。
有 query term hashtag 和其他非 hashtag 文字。
資料集標記:
按照 BWS 標記法,給標記者 4 元組,標出最相符與最不相符。
4 元組按照 random maximum-diversity selection (RMDS) 產生。
最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
因為一篇只標出最高和最低,要是有重複的兩個出現在不同的四元組,又剛好都是最高和最低,那兩篇標記就只發揮了一篇標記的作用了。
具體怎麼做的並不清楚。
提出了 2 * 7,097 個四元組讓人標記。
用 CrowdFlower 標記,每個四元組會由三個人標記。
BWS 標記的結果,用簡單的方式轉換成分數。
某 tweet 被標成最相符的次數,減掉被標成最不相符的次數,除以總出現次數。
結值域在 [-1, 1],但情緒分數是單極分數(unipolar scale),故再平移收縮轉換成 [0, 1]。
留言
追蹤
檢舉
上一篇
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
下一篇
[D17] Emotion Intensities in Tweets (2017) 2/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22211
篇
完賽人數
600
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
VMware remote console下載....
如何控管現在的手機連公司wifi-因手機現在會自動變更mac位置
求推介好用 AI 工具!
如何規劃一個安全的網路管制區
幼兒會亂按桌機開關關停桌機,奇怪以前的桌機需長按5秒才能關停,怎麼現在的桌機一按就關停了?請問有什麼方法或設定可以解決幼兒亂按關停桌機的問題.謝謝!!
公司大量報廢 3C 產品如何清理?
如何解決搜尋網址的摘要被導去垃圾站的問題?
Kali Linux如何執行exe檔?
加入網域後導致的微軟程式封鎖
用UE5做了遊戲,已經丟上google play封測中,想問怎麼串內購跟將遊戲存檔存在google帳戶
僅需 6~12週快速建立 GenAI 策略與路線圖
AI 賦能 DevOps,開啟創新應用!
立即標記行事曆,7/2 探索 AI 與雲端的無限未來!
Windows 10支援倒數,聯繫微軟夥伴諮詢
GenAI 加速企業創新落地,更需要全新 IT 戰略
熱門回答
如何控管現在的手機連公司wifi-因手機現在會自動變更mac位置
中小公司 郵件系統、人資系統 更換請益
幼兒會亂按桌機開關關停桌機,奇怪以前的桌機需長按5秒才能關停,怎麼現在的桌機一按就關停了?請問有什麼方法或設定可以解決幼兒亂按關停桌機的問題.謝謝!!
如何宣告讓任何 IP 都能連線的資料庫 (WorkBench)
如何規劃一個安全的網路管制區
熱門文章
【讓機器人做】自動截取網頁資料 + 排程器篇 I
kintone 外掛開發 ② 簡單實作範例 part 1 - 動手打包第一個外掛
Awesome Go Classroom Site
Angular 多專案架構
什麼是高內聚與低耦合的程式架構?
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}