什麼是多模態資料處理(Multimodal Data Processing)?
模態(modality)指的是資料的表現形式或感官來源。
所以多模態資料處理就是同時處理來自不同來源或不同格式的資料,並讓AI能理解它們之間的關係。
AI怎麼做到多模態的?
共分為三步:
圖片 → CNN / Vision Transformer
聲音 → Whisper / wav2vec
文字 → LLM / Embedding 模型
這樣不同格式的資料,就都變成了可以比較的向量(vector)。
例如:
CLIP模型(OpenAI)會讓圖片和文字的embedding落在相同空間,讓模型知道一張貓的照片≈‘a cat’。