在探討生成式AI的歷史時,我們需要了解它並非憑空出現,而是從一系列關鍵的技術突破中演化而來。它的發展簡史就像一條不斷加速的跑道,從理論的萌芽,到今日的爆炸式成長,主要可以追溯到兩個里程碑:生成對抗網路(GAN)和Transformer架構。
萌芽期:GANs 的誕生 (2014)
在2014年,Ian Goodfellow 與他的團隊提出了生成對抗網路(Generative Adversarial Networks, GANs)。這是一個革命性的想法,它將生成式AI的訓練過程轉化為一場「博弈」。
兩個模型相互競爭: GANs 由兩個神經網路組成:
生成器(Generator): 它的任務是創造出足以以假亂真的新資料(例如圖片)。
判別器(Discriminator): 它的任務是辨別收到的資料是來自真實世界,還是由生成器所創造的。
「貓捉老鼠」的訓練過程: 生成器不斷嘗試創造更好的「假資料」來欺騙判別器;判別器則不斷精進其辨識能力。在這種對抗中,兩個模型的能力都得以提升,最終讓生成器能夠產出高度逼真的內容。
GANs 的出現,證明了機器可以自主地創造出前所未見的內容,尤其是在圖像生成領域,為後來的發展奠定了堅實的基礎。
加速期:Transformer 架構的崛起 (2017)
儘管 GANs 在圖像生成上表現出色,但在處理序列資料(如文字)時仍有其侷限。這一切在2017年被一篇名為《Attention Is All You Need》的論文所改變。
注意力機制(Attention Mechanism): 這篇論文的核心是Transformer架構,它捨棄了傳統處理序列資料的遞歸神經網路(RNN),並引入了「自注意力(Self-Attention)」機制。這種機制讓模型在處理序列中的每個元素(例如句子中的每個詞)時,能夠同時關注到序列中的所有其他元素,並給予不同權重,從而更好地理解上下文語境。
Transformer 的出現,徹底革新了自然語言處理(NLP)領域。它極大地提升了模型處理長篇文字的能力,並為後來的大型語言模型(LLMs)鋪平了道路。
爆發期:GANs 與 Transformer 的融合
在Transformer架構問世後,研究人員開始將其與其他技術結合,創造出我們今天所熟知的生成式AI產品。
Transformer 的應用:
GPT 系列(Generative Pre-trained Transformer): OpenAI 將Transformer架構用於訓練龐大的語言模型,使其能夠理解、生成並回答各種文字內容。從GPT-2到GPT-4,模型的規模和能力呈指數級成長。
DALL-E 系列: OpenAI 進一步將Transformer架構應用於圖像生成,將文字描述轉換為逼真的圖像,展現了「跨模態」生成的強大潛力。
Midjourney 和 Stable Diffusion: 這些模型雖然使用了不同的技術,但核心同樣建立在類Transformer的架構基礎上,並結合了新興的擴散模型(Diffusion Model),在圖像生成領域引領了新一輪的技術革命。
從GANs證明了AI的創造力,到Transformer釋放了AI在理解和生成語言上的潛力,這兩大技術的演進,共同塑造了我們今天所見的生成式AI。它們的結合與創新,讓AI的創造能力從單一領域擴展到跨領域,並以前所未有的速度改變著我們的世界。