今天是資料集的最後一講--影像型資料集。
通常這種類型的資料集都不會只有影像,而是包含了聲音、文字,算是比較完備的資料集。
所以使用混合模式進行情緒分析的練習的時候,基本上有一個影像型的資料集就夠了。
廢話不多說,來看看今天的資料集吧!
這是一個資料數量非常多的資料集,是Youtube中的獨白影片,都是正臉面向鏡頭的,所以在資料的清理上就不用下太多工夫。
其中有包含了大概1000個人的獨白,有三千多個片段(不長的影片)。
對於其中的情感,已經有分別列出七種類別的標籤,從正面到負面分別是:Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive
對於情緒也已經有相關標籤,分別是:高興、悲傷、生氣、恐懼、厭惡、驚訝。
這個資料集類似前一個,都是Youtube中正面對向鏡頭的獨白影片,但資料的數量相對較小,大概只有不到一百個人,年齡大概在二三十歲之間。
裡面沒有相關的情緒標籤,但有情感標籤,一樣是Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive。
也是Youtube中的影片(從名稱就可以看出來),數量又更少,大概47個講述者,但是其中的廣度卻挺高的。
男女比例平均,含有多種族、年齡層也從14~60歲左右,是一個很全面的資料集。
情感標籤的話有Positive、Neutural、Negative三種。
上面的資料都比較單調,就是單純看著鏡頭講話,下面這個是包含的肢體動作的影片資料集:
這個資料集比較特別的是,裡面只由男女各五個演員的資料組成,但全部影片的長度達到了12個小時。
裡面有非常大量的情感互動過程,包含頭部、臉部、動作手勢等等。
在情感標籤的部分,也達到了十個之多,包含了:幸福、悲傷、憤怒、驚訝、恐懼、厭惡、挫敗、興奮、中性、其他。
全部的影片被分割成了約十一萬個片段,每個片段大約三秒,在動作的感測認知上,這是一個十分全面的資料集。
這個資料集適用TED演講的影片做為基礎下去蒐集的,裡面包含了一千八百多個TED演講的影片(英文),也包含了字幕。
裡面大約有一千七百多個演講者。
這個資料集的情感標籤分類也很有趣,分為humer & non-humer(幽默、不幽默),就跟他的名字一樣,是一個很酷的資料集。
我個人覺得這個資料集比上一個更有趣(笑)
這個資料庫最主要的目的去發現表情、動作中的「諷刺」,用的資料是*Friends(老友記)、Sarcasmaholics Anonymous(匿名諷刺狂)*等等熱門節目的片段。
是不是光聽節目就感覺超諷刺的XD
當然,這個資料集也不是單純搞笑用的。前面我們有提到,AI最學不會的就是人類的諷刺,往往會判斷錯誤,把對的當錯的、錯的當對的,這個資料集可以訓練他變得更加生活化。
等AI摸透了這些,說不定有天Chat GPT會回你:「你就是世界上最聰明的大帥哥/美女阿,呵呵。」
今天颱風終於安靜一點了,不然昨天風大到快嚇死 = =
大家要乖乖在家哦!然後停電的話點蠟燭記得開一點窗,不要像我昨天差點呼吸不順……冏