探索生成對抗網路(GAN)與大型語言模型(LLM)的結合應用,開發一個可進行跨模態創作的生成式 AI 系統。系統將利用 LLM 在自然語言理解與生成上的優勢,將使用者輸入的文字描述轉換為結構化生成指令,並交由 GAN 生成對應的高品質圖像、影像或其他多媒體內容。此外,反向應用將由 GAN 生成的媒體內容經由 LLM 進行語意解讀與文字生成,實現「文字 ↔ 圖像」的雙向轉換。此研究預期可應用於虛擬內容創作、互動式藝術設計以及智慧輔助教育等領域,並探討不同模型融合策略對生成品質、語意一致性及用戶體驗的影響。
GAN(Generative Adversarial Network,生成對抗網路) 是由 Ian Goodfellow 於 2014 年提出的生成式人工智慧技...