當我們把資料集、特徵處理、資料預處理等等的預備步驟講完了,也代表我們要進入到下一個步驟--分析了。
今天我們就來講講,為什麼我們要用所謂的「多模態分析」,以及他的特殊性。
在真正使用一項工具之前,第一個步驟一定是去了解為什麼要用這個工具,以及使用的必要性,而不是盲目的使用。
因為新的工具不一定比舊的好。
所以再使用多模態分析前,我們就先來了解一下,到底「什麼是多模態分析?」、還有為什麼我們不單用一個模態下去分析就好,而是要用他的原因。
模態簡單來講,可以理解成各種不同的資料類型,常見的模態有下列幾種:
這些是常用的模態,而前四種是在情緒分析研究中比較常用到的科學方法。
最主要的原因是一位取得容易,要得到語音、影像、文字資料很簡單,但像企業、社會方面的資料取得,總不可能叫被研究者坐在醫院好幾天來取得生理數據的壁畫吧?
(這是可以,但是研究的難度係數非常高……)
最主要的原因就是要「準」。
其實就像我們人類一樣,我們在判斷對方情緒的時候,其實很難單單從一個「模態」中了解。
比如,再傳訊息或寫email的時候,我們可能可以從對方習慣的言語或字面上的情緒來了解,甚至從貼圖會表情符號了解對方想要表達的情緒,但這可能是假的(有誰是笑著在Line傳笑哭貼圖的?老實舉手!!)
當然,不只是文字,光聽聲音,要判斷一個人的情緒可以嗎?
可以的,但是也可能會不准。因為人的情緒表達真的太複雜了,不像機器,說一就是一,說零就是零。我可以刀子嘴豆腐心,也可以笑裡藏刀,這很難用機器去判斷出來。
而單純用影像也不行。或許大家會覺得影像的判斷好像比另外兩個要強一些,這對,但也不對。
因為雖然影像中,我們可以瞭解到的資訊比較多一些(比如表情、姿勢),但是表情這種東西呢……畢竟是很主觀的,也不是每個人都是影帝影后,還有人是面癱,所以單純想要要用影像來了解情緒,不如想像中的簡單。
如果覺得很難理解的話,想想各種綜藝節目或團康遊戲中的比手畫腳遊戲或猜詞語遊戲就知道了,我覺得我比的很正確,但在你眼裡卻跟鬼一樣……就是這種感覺。
所以人在判定一個人的情緒時,最基本用到的就是這幾種感官,我去看、去聽、去感受(人體除了五感,還有一些接收生理訊息的器官,只是沒那麼明顯),從而去判斷另一個人表達的情緒。
(甚至還不一定對)
所以在研究中就利用了一些方法,把這些「模態」組合在一起,試圖去模仿人類的觀察。
雖然可行,但因為技術上的限制,目前遇到的最大問題是,這些數據很難同步化,而且不同個體間的差異太大,很難用一個模型去了解所有人的情緒。
而在分析的過程中,也分為了兩種:
兩種不同的方法各有優缺。(這我們之後再談)