iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0

一、核心概念
1. 模態(Modality)
• 指不同型態的資料,例如文字(Text)、影像(Image)、聲音(Audio)、影片(Video)。
2. 跨模態學習(Cross-modal Learning)
• 讓模型理解不同模態之間的關聯,例如「一隻狗在草地上奔跑」的文字對應到照片或影片。
3. 對齊與融合(Alignment & Fusion)
• 對齊:把不同模態的語意投射到同一個表示空間。
• 融合:同時利用多種模態的訊息來理解或生成內容。

二、關鍵技術
1. Transformer 架構
• 以自注意力機制(Self-Attention)為基礎,能同時處理文字、影像、聲音等序列資料。
• 應用:
• GPT 系列(文字)
• Vision Transformer(影像)
• 多模態版本(如 GPT-4o、Gemini),同時支援文字、影像、聲音。
2. 對比學習(Contrastive Learning)
• 方法:讓相關的文字與影像(或聲音)表示靠近,不相關的則分開。
• 代表模型:
• CLIP(OpenAI):學會「看圖找文字」或「看文字找圖」。
• ALIGN(Google):用大規模配對資料做跨模態對齊。
3. 生成式模型
• 擴散模型(Diffusion Models):從隨機雜訊逐步去噪生成影像或影片(如 Stable Diffusion、DALL·E 3)。
• 自回歸模型(Autoregressive Models):逐步生成文字、聲音或影像片段,適合序列資料(如 GPT、AudioLM)。

三、應用場景
1. 文字 → 影像
• 輸入文字描述,自動生成圖片(DALL·E、Stable Diffusion)。
2. 文字 → 聲音
• 將文字轉換為自然語音(TTS 技術,例如 ChatGPT Voice、ElevenLabs)。
3. 影像 → 文字
• 自動生成圖像描述(Image Captioning),可用於輔助視障者。
4. 文字 + 影像 → 影片
• 結合描述與圖片生成影片(Runway Gen-2、Pika Labs)。
5. 多模態對話助理
• 能看圖說話、分析影片內容,甚至用聲音回覆(GPT-4o、Gemini)。


上一篇
生成式 AI 與程式碼生成
系列文
AI創世紀:生成式智慧的無限想像14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言