2024 iThome 鐵人賽

DAY 20

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 20 篇

Day20 情緒分析－影像類型資料集

16th鐵人賽

初墨 Roy

2024-10-04 23:49:46

294 瀏覽

分享至

今天是資料集的最後一講－－影像型資料集。

通常這種類型的資料集都不會只有影像，而是包含了聲音、文字，算是比較完備的資料集。

所以使用混合模式進行情緒分析的練習的時候，基本上有一個影像型的資料集就夠了。

廢話不多說，來看看今天的資料集吧！

正臉面向鏡頭的影片

CMU-MOSEI

這是一個資料數量非常多的資料集，是Youtube中的獨白影片，都是正臉面向鏡頭的，所以在資料的清理上就不用下太多工夫。

其中有包含了大概1000個人的獨白，有三千多個片段（不長的影片）。

對於其中的情感，已經有分別列出七種類別的標籤，從正面到負面分別是：Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive

對於情緒也已經有相關標籤，分別是：高興、悲傷、生氣、恐懼、厭惡、驚訝。

CMU-MOSI

這個資料集類似前一個，都是Youtube中正面對向鏡頭的獨白影片，但資料的數量相對較小，大概只有不到一百個人，年齡大概在二三十歲之間。

裡面沒有相關的情緒標籤，但有情感標籤，一樣是Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive。

Youtube

也是Youtube中的影片（從名稱就可以看出來），數量又更少，大概47個講述者，但是其中的廣度卻挺高的。

男女比例平均，含有多種族、年齡層也從14~60歲左右，是一個很全面的資料集。

情感標籤的話有Positive、Neutural、Negative三種。

包含動作的影片

上面的資料都比較單調，就是單純看著鏡頭講話，下面這個是包含的肢體動作的影片資料集：

IEMPCAP

這個資料集比較特別的是，裡面只由男女各五個演員的資料組成，但全部影片的長度達到了12個小時。

裡面有非常大量的情感互動過程，包含頭部、臉部、動作手勢等等。

在情感標籤的部分，也達到了十個之多，包含了：幸福、悲傷、憤怒、驚訝、恐懼、厭惡、挫敗、興奮、中性、其他。

全部的影片被分割成了約十一萬個片段，每個片段大約三秒，在動作的感測認知上，這是一個十分全面的資料集。

半開放環境（演講）影片

UR_FUNNY

這個資料集適用TED演講的影片做為基礎下去蒐集的，裡面包含了一千八百多個TED演講的影片（英文），也包含了字幕。

裡面大約有一千七百多個演講者。

這個資料集的情感標籤分類也很有趣，分為humer & non-humer（幽默、不幽默），就跟他的名字一樣，是一個很酷的資料集。

生活諷刺語言類型

MUStARD

我個人覺得這個資料集比上一個更有趣（笑）

這個資料庫最主要的目的去發現表情、動作中的「諷刺」，用的資料是*Friends（老友記）、Sarcasmaholics Anonymous（匿名諷刺狂）*等等熱門節目的片段。

是不是光聽節目就感覺超諷刺的XD

當然，這個資料集也不是單純搞笑用的。前面我們有提到，AI最學不會的就是人類的諷刺，往往會判斷錯誤，把對的當錯的、錯的當對的，這個資料集可以訓練他變得更加生活化。

等AI摸透了這些，說不定有天Chat GPT會回你：「你就是世界上最聰明的大帥哥／美女阿，呵呵。」

今天颱風終於安靜一點了，不然昨天風大到快嚇死 = =

大家要乖乖在家哦！然後停電的話點蠟燭記得開一點窗，不要像我昨天差點呼吸不順……冏

Day19 颱風天放假……

Day21 情緒分析－細說資料清理

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19861 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙

認識AI與NLP的30日旅行團系列 第 20 篇