iT邦幫忙

0

DAY29:認識多模態資料處理

2025-10-28 11:20:13149 瀏覽
  • 分享至 

  • xImage
  •  

什麼是多模態資料處理(Multimodal Data Processing)?
模態(modality)指的是資料的表現形式或感官來源。
所以多模態資料處理就是同時處理來自不同來源或不同格式的資料,並讓AI能理解它們之間的關係。


AI怎麼做到多模態的?
共分為三步:

  1. 特徵抽取(Feature Extraction)
    每一種模態先用對應的模型轉成數字特徵(embedding)。

圖片 → CNN / Vision Transformer
聲音 → Whisper / wav2vec
文字 → LLM / Embedding 模型

這樣不同格式的資料,就都變成了可以比較的向量(vector)。

  1. 對齊與融合(Alignment & Fusion)
    不同模態的向量會被對齊到同一個語意空間。

例如:
CLIP模型(OpenAI)會讓圖片和文字的embedding落在相同空間,讓模型知道一張貓的照片≈‘a cat’。

  1. 下游任務(Downstream Tasks)
    融合後的多模態特徵,可以被用來做各種任務。

圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言