2024 iThome 鐵人賽

DAY 26

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 26 篇

Day26 多模態分析

16th鐵人賽

初墨 Roy

2024-10-10 23:54:15

206 瀏覽

分享至

當我們把資料集、特徵處理、資料預處理等等的預備步驟講完了，也代表我們要進入到下一個步驟－－分析了。

今天我們就來講講，為什麼我們要用所謂的「多模態分析」，以及他的特殊性。

先來看看什麼是多模態分析吧！

在真正使用一項工具之前，第一個步驟一定是去了解為什麼要用這個工具，以及使用的必要性，而不是盲目的使用。

因為新的工具不一定比舊的好。

所以再使用多模態分析前，我們就先來了解一下，到底「什麼是多模態分析？」、還有為什麼我們不單用一個模態下去分析就好，而是要用他的原因。

什麼是模態？

模態簡單來講，可以理解成各種不同的資料類型，常見的模態有下列幾種：

語音類型（Speech）：利用說話者因檔中的音調、語速、口氣、強度等等資料作分析，比較不會去看「說的內容」，而是去看表達的情感強度。
文字（Text）：從文字資料中，判斷詞彙中的情感、正負面傾向、語句結構等等。
面部表情（Facial Expressions）：透過圖像處理的技術，去解讀面部表情的變化，比如頭部的轉動角度、微笑、皺眉、五官的不同變化，去判斷圖片中的人可能要表達的情緒。
肢體語言（Body Language）：透過一個人的肢體動作、姿勢，來判定情緒與心理。
生理數據（Physiological Data）：利用客觀的心跳、腦電波、生理化學濃度等等資訊，捕捉情緒變化。

這些是常用的模態，而前四種是在情緒分析研究中比較常用到的科學方法。

最主要的原因是一位取得容易，要得到語音、影像、文字資料很簡單，但像企業、社會方面的資料取得，總不可能叫被研究者坐在醫院好幾天來取得生理數據的壁畫吧？

（這是可以，但是研究的難度係數非常高……）

為什麼我們要用多模態分析？

最主要的原因就是要「準」。

其實就像我們人類一樣，我們在判斷對方情緒的時候，其實很難單單從一個「模態」中了解。

比如，再傳訊息或寫email的時候，我們可能可以從對方習慣的言語或字面上的情緒來了解，甚至從貼圖會表情符號了解對方想要表達的情緒，但這可能是假的（有誰是笑著在Line傳笑哭貼圖的？老實舉手！！）

當然，不只是文字，光聽聲音，要判斷一個人的情緒可以嗎？

可以的，但是也可能會不准。因為人的情緒表達真的太複雜了，不像機器，說一就是一，說零就是零。我可以刀子嘴豆腐心，也可以笑裡藏刀，這很難用機器去判斷出來。

而單純用影像也不行。或許大家會覺得影像的判斷好像比另外兩個要強一些，這對，但也不對。

因為雖然影像中，我們可以瞭解到的資訊比較多一些（比如表情、姿勢），但是表情這種東西呢……畢竟是很主觀的，也不是每個人都是影帝影后，還有人是面癱，所以單純想要要用影像來了解情緒，不如想像中的簡單。

如果覺得很難理解的話，想想各種綜藝節目或團康遊戲中的比手畫腳遊戲或猜詞語遊戲就知道了，我覺得我比的很正確，但在你眼裡卻跟鬼一樣……就是這種感覺。

所以人在判定一個人的情緒時，最基本用到的就是這幾種感官，我去看、去聽、去感受（人體除了五感，還有一些接收生理訊息的器官，只是沒那麼明顯），從而去判斷另一個人表達的情緒。

（甚至還不一定對）

所以在研究中就利用了一些方法，把這些「模態」組合在一起，試圖去模仿人類的觀察。

雖然可行，但因為技術上的限制，目前遇到的最大問題是，這些數據很難同步化，而且不同個體間的差異太大，很難用一個模型去了解所有人的情緒。

而在分析的過程中，也分為了兩種：

早期融合：直接把多模態數據丟進去分析。
晚期融合：先把各自模態分析後，再結合結果。

兩種不同的方法各有優缺。（這我們之後再談）

Day25 視覺類型特徵提取

Day27 早期融合模型

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js