iT邦幫忙

2024 iThome 鐵人賽

DAY 27
0
AI/ ML & Data

認識AI與NLP的30日旅行團系列 第 27

Day27 早期融合模型

  • 分享至 

  • xImage
  •  

昨天的結尾我們有說到,在使用多模態方法分析的時候,有分為「早期融合」、「晚期融合」兩種,今天我們就來看看早期融合模型有哪些。


早期融合(EF, Early Fusion)

早期融合也被稱作「特徵融合」,主要是將每個摩太的特徵再輸入階段進行合併,並基於這個方法進行情感分類。

因為早期融合是在輸入層就進行,所以整體的框架也相對比較簡單,能夠使用一般的機器學習模型(例如SVM、深度學習等等)去學習各種模態之間的交互特徵。

但是,因為缺乏對於單個模態的細度建模,可能會導致模態之間的細節被忽略,會有過度擬合的問題出現。

下面我們就來看看常用的幾種方法吧!

三模態隱馬可夫模型 (THMM, Tri-modal Hidden Markov Model)

這個方法的名字是不是超長(笑),這是由Morency 等人提出的一種三模態情感分析。

在使用時,模型會先將三個模態的特徵合併(視覺、聽覺、文本),然後使用模型捕捉、學習輸入信號的隱藏動態結構。

支持向量機 (SVM, Support Vector Machine)

SVM算是一種很經典的分類方法了,他透過將一個句子中,來自不同模態的特徵聚在一起,組合成一個「向量」之後,再進行學習和分類。

這種方法雖然可以處理高維度的數據,但缺點也明顯,就是不太能很充分的去捕捉不同模態之間的交互關係。

多核學習 (MKL, Multiple Kernel Learning)

這個方法是由Poria 等人提出,結合了兩種特徵選擇技術,在特徵選擇完後,再使用多核學習來進行融合,從而提高模型的性能。

選擇使用兩種特徵方法的原因是可以去減少三模態特徵的數量,第一種方法是循環基礎的特徵子集選擇(CFS, cyclic correlation-based feature subset selection)、第二種是主成分分析(PCA, principal component analysis),這樣的特徵選擇不僅可以加快模型的處理速度,也適度的改善了實驗結果。

在這個方法被提出之後,原作者在一年後又提出了「卷積遞歸多核學習模型(CRMKL, convolutional recurrent multiple kernel learning),加入了CNN、RNN來增加在視覺模態的情感檢測能力,讓整體模型的性能又再度有所提高。

早期融合長短期記憶網路(EF-LSTM, Early Fusion Long Short-Term Memory)

EF-LSTM這個方法將多個模態資訊的輸入,在每個時間步驟上進行串聯與融合,然後作為單個LSTM的輸入,輸入到期中進行處理。

這種方法可以捕捉在時間上的特徵,但對於模態之間複雜的交互,可能仍舊無法很好的理解與處理。

自監督多任務多模態情感分析網絡 (Self-MM, Self-Supervised Multi-task Multimodal sentiment analysis network)

這個方法核前面的其他方法相比算是比較特別的,因為他將整個處理過程,劃分成了一個多模態處理 + 三個單模態子處理,這已經有一點像是晚期融合了。

但是因為這裡使用到的是「自監督」,而且資料也是一次放進去,沒有經過研究者或使用者額外進行的分析,所以才把他歸類在了早期融合。

Self-MM最主要的特色是設計了一個基礎識自監督式學習的標籤生成模塊,用來捕捉單模態的信號。

在多模態核單模態的不同處理過程中,是採用共享的底層的,然後在不斷的訓練中,透過對單模態的偏移和處理,這樣可以保留兩者間各自的獨特特徵,並去學習多模態和單模態之間的相似性與差異性。


今天的部分就到這裡吧~

我們明天來談談晚期融合!


上一篇
Day26 多模態分析
下一篇
Day28 晚期融合模型
系列文
認識AI與NLP的30日旅行團30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言