iT邦幫忙

2024 iThome 鐵人賽

DAY 20
0
AI/ ML & Data

認識AI與NLP的30日旅行團系列 第 20

Day20 情緒分析-影像類型資料集

  • 分享至 

  • xImage
  •  

今天是資料集的最後一講--影像型資料集。

通常這種類型的資料集都不會只有影像,而是包含了聲音、文字,算是比較完備的資料集。

所以使用混合模式進行情緒分析的練習的時候,基本上有一個影像型的資料集就夠了。

廢話不多說,來看看今天的資料集吧!


正臉面向鏡頭的影片

CMU-MOSEI

這是一個資料數量非常多的資料集,是Youtube中的獨白影片,都是正臉面向鏡頭的,所以在資料的清理上就不用下太多工夫。

其中有包含了大概1000個人的獨白,有三千多個片段(不長的影片)。

對於其中的情感,已經有分別列出七種類別的標籤,從正面到負面分別是:Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive

對於情緒也已經有相關標籤,分別是:高興、悲傷、生氣、恐懼、厭惡、驚訝。

CMU-MOSI

這個資料集類似前一個,都是Youtube中正面對向鏡頭的獨白影片,但資料的數量相對較小,大概只有不到一百個人,年齡大概在二三十歲之間。

裡面沒有相關的情緒標籤,但有情感標籤,一樣是Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive。

Youtube

也是Youtube中的影片(從名稱就可以看出來),數量又更少,大概47個講述者,但是其中的廣度卻挺高的。

男女比例平均,含有多種族、年齡層也從14~60歲左右,是一個很全面的資料集。

情感標籤的話有Positive、Neutural、Negative三種。


包含動作的影片

上面的資料都比較單調,就是單純看著鏡頭講話,下面這個是包含的肢體動作的影片資料集:

IEMPCAP

這個資料集比較特別的是,裡面只由男女各五個演員的資料組成,但全部影片的長度達到了12個小時。

裡面有非常大量的情感互動過程,包含頭部、臉部、動作手勢等等。

在情感標籤的部分,也達到了十個之多,包含了:幸福、悲傷、憤怒、驚訝、恐懼、厭惡、挫敗、興奮、中性、其他。

全部的影片被分割成了約十一萬個片段,每個片段大約三秒,在動作的感測認知上,這是一個十分全面的資料集。


半開放環境(演講)影片

UR_FUNNY

這個資料集適用TED演講的影片做為基礎下去蒐集的,裡面包含了一千八百多個TED演講的影片(英文),也包含了字幕。

裡面大約有一千七百多個演講者。

這個資料集的情感標籤分類也很有趣,分為humer & non-humer(幽默、不幽默),就跟他的名字一樣,是一個很酷的資料集。


生活諷刺語言類型

MUStARD

我個人覺得這個資料集比上一個更有趣(笑)

這個資料庫最主要的目的去發現表情、動作中的「諷刺」,用的資料是*Friends(老友記)、Sarcasmaholics Anonymous(匿名諷刺狂)*等等熱門節目的片段。

是不是光聽節目就感覺超諷刺的XD

當然,這個資料集也不是單純搞笑用的。前面我們有提到,AI最學不會的就是人類的諷刺,往往會判斷錯誤,把對的當錯的、錯的當對的,這個資料集可以訓練他變得更加生活化。

等AI摸透了這些,說不定有天Chat GPT會回你:「你就是世界上最聰明的大帥哥/美女阿,呵呵。」


今天颱風終於安靜一點了,不然昨天風大到快嚇死 = =

大家要乖乖在家哦!然後停電的話點蠟燭記得開一點窗,不要像我昨天差點呼吸不順……冏


上一篇
Day19 颱風天放假……
下一篇
Day21 情緒分析-細說資料清理
系列文
認識AI與NLP的30日旅行團30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言