除了我們前兩天說到的早期 / 晚期融合模型之外,還有一些其他的方法。
今天我們要介紹的 Tensor-based Fusion 就是其中一種,那我們就繼續看下去吧!
也可以說是「基於張量的模型」,意思是差不多的。
特點是利用張量來進行多模態分析,這些方法透過計算各個模態的「張量乘積」來了解多模態的表徵。
這種方法可以去捕捉到時間、特徵、多個模態之間的交互,但是計算的複雜度相較起前兩天介紹的方法要高。
TFN在操作上分為三個部分:模態嵌入子網路、張量融合、情感推理子網路。
第一部份會是處理各模態資料,使用LSTM處理語言模態,再利用FACET、COVAREP處理聲音視覺特徵,並用CNN中的平均池化(Average Pooling)方法處理視覺、聲音模態。
平均池化大家可能比較陌生,「池化」是用來減少CNN的大小、降低計算量和複雜性的一個方法。平均池就是將局部區域內數值的平均值作為輸出的一種方式。
第二部份會將三個模態的嵌入向量進行三重笛卡兒乘積,用來結合單模態、雙模態、三模態的交互。
第三部分將融合的結館傳遞到深度的神經網絡(情感推理子網路)中,進行情感的推斷。
這中方法的優點是能夠完整的去捕捉模態內、模態間的動態。
LMF的過程與TFN相似,但將權重分解成了低秩因子,讓整體的訓練效率提升。
這種方法是夠過低秩張量來進行多模態融合,可以減少參數量、計算複雜度,讓模型的計算量降低。
這個模型的開創是得到了TFN、LMF 啟發,基於「模態冗於減少」的一種融合方法。
這個方法使用Tucker張量分解,允許對不同模態採用不同的壓縮綠,並且去適應各個模態中的有用資訊差異。
他最大的特色就是可以減少模型的複雜性和參數數量,同時減少了冗餘,讓模型理解其他非冗餘的資訊。
主要針對時間序列的數據進行張量的融合、捕捉模態之間隱藏的動態關聯,並使用張量秩最小化來減少數據噪音和不完美信息對模型的影響。
張量秩最小化是一種數學技巧,用來找出多模態數據中隱藏的低秩結構,即使多媒態數據有缺失、噪音或不完整的問題,模型也能自動去修正這些異常。
提出了一個分層融合框架,透過將模態內、模態間的交互拆解成局部、全面兩個層次,來提高融合的效率和準確性。
HFFN分成了三個階段來進行融合,分割、征服、結合。
分割(Divide)階段,再將多模態的特徵整理對齊後,劃分成局部區域,這樣可以在小範圍內了解模態之間的交互關係。
征服(Conquer)階段,會針對每個局部區域進行外積運算,從而捕捉模態間的交互動態。
結合(Combine)階段主要是關注全面性的融合,透過僵局部區域間的相互依賴關係建模,讓局部的動態彙整成全局的情感推斷。在此階段使用了ABS-LSTM (Attentive Bi-directional Skip-connected LSTM),是以RNN為基礎的一個模型,加入了注意力機制,並且能夠跨越多個時間步驟進行長程依賴學習。
這個方法是在HFFN的結構之上做了進一步的改進,進一步的提升了局部、全面動態的處理能力。
他將每個模態的個徵都分割成多個區段,並在每個區段內進行張量的融合,這樣可以讓模型對局部模態進行更加精細的學習與理解。
每個模態都有一個專門LSTM網路,可以用來捕捉模態內的時序關聯。
在局部融合完成後,使用 BM-LSTM (Bidirectional Multiconnected LSTM) 來捕捉全面性的多模態,可以在多個時間步驟之間建立直接的關係,從而更好的理解模態之間的交互。