生成式人工智慧(Generative AI)是一類能夠自動創造新內容(例如文字、圖像、音頻或影片)的技術,其核心在於模型學習大量資料中的模式與結構,然後接收提示(prompt)生成與輸入相關的結果。
早期的生成式系統像是1960年代的ELIZA,是用簡單規則與模式匹配來產生回應,並不具備真正理解能力,只是看起來像在對話。隨著時間進展,到 2010 年代,深度學習(Deep Learning)與神經網路(Neural Networks)的突破,特別是變分自動編碼器(VAE)、對抗生成網絡(GANs)與後來的擴散模型(Diffusion Models),使得圖像與音頻生成達到近似真實的水準。
在文字生成方面,一個關鍵里程碑是Transformer架構的提出(“Attention Is All You Need”),為大型語言模型(LLM)奠定基礎。OpenAI在2018年推出第一版 GPT(Generative Pre-trained Transformer),它通過預訓練+微調的方法,能夠在各種文字任務中執行。接著GPT-2、GPT-3、以及GPT-4等版本逐步提升模型參數、預訓練資料量與推理能力,其中GPT-3在語言生成的流暢性與創造性上特別受到關注。
近年來生成式AI的應用範圍急速擴大。不只是純文字對話,還包括自動編寫程式碼、幫助設計視覺藝術、生成音樂、甚至用於模擬資料或影片內容。像是 ChatGPT、DALL·E、Stable Diffusion與Midjourney 等,都代表了文字、圖像等多模態生成式AI在不同領域的實作與落地。
生成式AI已從早期的規則與模式匹配,演變到能夠理解與產生高品質、多樣化內容的階段。而GPT類型的大型語言模型,在這進程中扮演了核心角色:它不僅提升了文字生成的能力,也推動了生成式AI在實際應用中的普及與創新。