iT邦幫忙

2025 iThome 鐵人賽

DAY 11
0
生成式 AI

生成式AI:從歷史與基礎原理到賦予產能的工具系列 第 11

多模態生成(文字轉圖片、影片)

  • 分享至 

  • xImage
  •  

多模態生成(文字轉圖片、影片)

在人工智慧快速發展的今天,多模態生成(Multimodal Generation)成為一個極具潛力的研究方向。所謂多模態,指的是結合不同感官資料形式(例如文字、圖片、聲音、影片)的訊息處理與生成。近年來,「文字轉圖片」與「文字轉影片」的應用,成為人工智慧創意領域的核心突破。

文字轉圖片(Text-to-Image)

文字轉圖片的技術最早由 GAN(生成對抗網路) 推動,透過文字描述生成符合語意的圖像。然而,GAN 在高解析度與細節控制上存在挑戰。隨著 Diffusion Models(擴散模型) 的出現,這一限制被大幅改善。代表性的系統如 **DALL·E、Stable Diffusion、MidJourney **等,能夠將簡單的文字敘述轉換成高品質、擬真的圖片。
例如,輸入提示詞:「一隻穿著太空衣的貓在月球上行走」,模型便能生成符合語境的圖像。

文字轉影片(Text-to-Video)

文字轉影片比文字轉圖片更具挑戰,因為它不僅要生成單張圖像,還需維持時間上的連續性與場景的一致性。早期的研究多聚焦於短片段或低解析度影片,但隨著計算能力與模型設計的進步,如 Imagen Video(Google) 與 Make-A-Video(Meta),能夠生成具備流暢動態與高解析度的影片內容。這類技術在 廣告、娛樂、教育、電影製作 等領域具備巨大應用潛力。

意義與挑戰

多模態生成的發展不僅擴展了人工智慧的表達能力,也讓創意產業、設計與教育獲得新動能。然而,它同時帶來了 **版權爭議、倫理風險 **與 假訊息擴散 的挑戰。因此,未來的研究除了提升生成效果之外,還需要建立透明與負責的使用規範。


上一篇
音樂與聲音生成的發展
下一篇
Prompt Engineering 的基礎
系列文
生成式AI:從歷史與基礎原理到賦予產能的工具14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言