DAY29：認識多模態資料處理

學習筆記

妤 2025-10-28 11:20:13 ‧ 511 瀏覽

什麼是多模態資料處理（Multimodal Data Processing）？
模態（modality）指的是資料的表現形式或感官來源。
所以多模態資料處理就是同時處理來自不同來源或不同格式的資料，並讓AI能理解它們之間的關係。

AI怎麼做到多模態的？
共分為三步：

圖片 → CNN / Vision Transformer
聲音 → Whisper / wav2vec
文字 → LLM / Embedding 模型

這樣不同格式的資料，就都變成了可以比較的向量（vector）。

例如：
CLIP模型（OpenAI）會讓圖片和文字的embedding落在相同空間，讓模型知道一張貓的照片≈‘a cat’。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

79 組

團體組數

2 組

累計文章數

83 篇

最後報名日

9/15

IT邦幫忙