早期思想與基礎概念(1950年代)
1950年 艾倫.圖靈(Alan Turing)著名的『圖靈測試』中,提出了機器思考的可能性,奠定AI思想的基礎
1959年 亞瑟·薛登(Arthur Samuel)提出「機器學習」,並設計會在跳棋遊戲中自我學習提升的程式。
統計生成模型興起(1960~2000年代)
**馬可夫鏈(Markov Chain):**利用當前狀態,生成隨機卻有一定結構的序列。早期研究者常用它來自動生成文字或音樂。
**n-gram 模型:**應用於自然語言處理(NLP),透過統計相鄰詞語的出現機率,模擬語言的結構,廣泛用於自動翻譯。
**隱馬可夫模型(HMM):**透過觀察「看得到的」現象去推測另一個「看不到的」現象,為生成任務提供更強大的機率基礎。廣泛用於語音辨識與序列數據建模。
這些方法雖然能力有限,無法真正理解語意或生成長篇文章,但它們建立了 「用數據機率分布生成內容」 的核心思想,直接影響了後來的深度學習模型。
深度學習與生成模型的崛起(2010年代)
Ian Goodfellow 提出 生成對抗網路(GAN, Generative Adversarial Network),由生成器和判別器兩部分組成,能生成高質量的圖像、影像、音頻等數據,推動了生成式AI的快速發展。
**變分自編碼器(VAE):**結合概率圖模型和神經網絡,能生成多樣化且連續的數據分布,用於影像生成與潛在空間學習
Google 發表 Transformer 架構,提升了自然語言處理(NLP)的能力,成為後續的核心架構。
(其中在2016年, AlphaGo 擊敗圍棋冠軍李世乭(4:1),展現深度學習與強化學習結合的力量)
大規模語言模型與多模態生成(2020年代迄今)
**GPT系列(OpenAI):**從GPT-1到GPT-4,這些大型預訓練語言模型能生成流暢且上下文相關的文本,具備強大自然語言生成能力。
**DALL·E、Stable Diffusion等圖像生成模型:**根據文字描述生成高質量圖像。
ChatGPT 推出,掀起全球生成式 AI 熱潮,生成內容涵蓋文字、圖像、音樂、影片等。
生成式AI從早期的簡單概率模型和符號系統,經歷了深度學習和生成對抗網絡的突破,發展到如今基於Transformer的大規模預訓練模型,已廣泛應用於文本、圖像、音頻、視頻等多種媒介的生成,最終,隨著 GPT 系列等生成式 AI的出現,在 2022 年正式走入大眾生活,並迅速擴散到教育、醫療、金融與創意產業等各個領域。