2024 iThome 鐵人賽

DAY 2

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 2 篇

Day2 AI國度的導覽－生成式AI歷史與介紹

16th鐵人賽生成式ai transformer diffusion model gan

初墨 Roy

2024-09-16 23:19:33

690 瀏覽

分享至

歡迎各位第一天的旅程，今天我們來到了AI國度，就讓我們好好了解一下這裡的風景與歷史吧！

因為時間並不多，所以我們主要的導覽重點會集中在「生成式AI」，如果有什麼問題，記得及時發問哦～

上期的文章有兩篇是關於AI整體發展、分類的介紹，可以去看看：
Day2 不要以為勇者不用學歷史－簡述AI的發展
Day3 世界的面貌－AI的分類與級別劃分

生成式AI的簡介

生成式人工智慧，Generative artificial intelligence，簡稱為生成式AI或Gen AI

生成式AI的內容就如同字面上意義，只要輸入提示詞，就可以生成出文字、圖像、影像等等的內容。

這裡的生成並不是指無中生有哦，而是需要先對模型輸入大量的訓練數據，等到訓練完成後，才會根據提示詞生成出一些與數據內容相似，但又有一些新穎性的內容。

這類的AI依賴於深度學習模型，可以模擬人腦在學習上的運作，去識別大量數據並進行編碼。等到訓練完成後，再依這類訊息來理解使用者提出的問題，並給予回應。（關於深度學習的資訊可以參考這篇：Day4 奇獸圖鑑－機器學習的種類）

換言之，生成式AI可以一次吸收很多很多的內容，並且利用「編碼」的方式讓自己形成各自不同的概念，在你提出提示詞後，就可以跟據你的問題找到相對的標籤，並在整理後回答你。

也因為生成的內容是經由訓練資料決定，所以對於資料量的要求也很高，各領域知識的多寡，也會影響到生成的結果。

比如GPT-4這類通用型的模型，可以解決或回答大部分人的問題，但在專業的問題上，卻可能不如單一使用一個領域資料訓練的AI強。

生成式AI里程碑簡史

想深入了解的可以參考這篇AWS網站的文章生成式人工智能（GenAI）新世界：過去、現在和未來個人覺得寫的很好，但如果放這裡又會太深入，有興趣的自己去看看吧！

1966年第一個「聊天機器人」－ELIZA

生成式AI最早可追溯到MIT的 Joseph Weizenbaum 開發出的自然語言處理程序ELIZA，這是意義上第一個「聊天機器人」，雖然因為算法與數據並不完善，這個程序的能力也有限，但卻是生成式AI的一個里程碑。

1986年後向傳播算法（Backpropagation）

由神經網絡之父 Geoffrey Hinton 提出，是深度學習和類神經網絡中最關鍵的算法。

原先的算法都是從前到後一步一步推導，透過每一次的運算，對權重進行優化以減少誤差，從而得到最好的結果。但其中有一個缺點，就是當結構很複雜時會有大量重複運算，導致每次運作都有龐大的計算量。

而反向傳播算法的提出解決了這個問題，他不同於以往由前向後的算法，而是從末端開始計算誤差和權重，藉此減少運算量。

之後被提出的遞歸神經網絡（RNN）、卷積神經網絡（CNN）都有這個算法的功勞。

2013年自動編碼器（VAE, Variational Autoencoder）

VAE是一種深度學習的模型，其中包含兩個相連的神經網絡。

第一個是「編碼器」－將大量非結構化、未標記的訓練數據編碼（或壓縮）為參數。

第二個是「解碼器」－將這些參數重建為內容。

從這樣的過程中，可以訓練模型從不同的參數中生成新的資料。

2014年生成對抗網絡（GAN, Generative adversarial network）

由Ian Goodfellow 提出，之所以叫「對抗」是因為這個方法訓練了兩個神經網絡，讓他們彼此競爭，可以從中促進模型產生更真實的新資料。

第一個神經網絡是「生成器」－不斷從原先資料中修改來產生新資料。

第二個神經網絡是「鑒別器」－嘗試去預測前者生成的資料，在不斷來回往復的過程中，一直訓練到第二個系統在預測的時候分不清資料的真假，就是這個訓練的目的。

可以發現，GAN和VAE有些類似，不過雖然兩者都是基於深度學習的神經網絡，但各自神經網絡的目標和模型結構都不相同。

由GAN生成的文本和圖像已經非常逼真，尤其在風格轉換（把照片風格轉為素描）、數據增強（窗健新數據以增加訓練數據及的多樣性）等方面特別成功。

2017年 Transformer模型－文本生成領域的突破

由Google研究員Ashish Vaswani等人提出，Transformer 是基於自注意力機制（self-attention mechanism）的一種模型，這個機制聽起來很深奧，其實簡單來說也是模仿人的思考方式。

比如說，「我吃飯」這三個字，在我們看到的時候，腦中就會自動浮現出「我」、「吃」、「飯」三個字，並針對每一個字進行思考，最後歸納出他們各自的詞性和代表的位置。

簡而言之，就是在針對序列數據（比如上面所講的一段話），就可以將整句話的各字詞拆開做平行處理，而不是由前到後一個字一個字的處理，相較起傳統的RNN、CNN，大大增加了速度和準確性。

這個模型可以說是文本分析跨出的一大步，不論是在翻譯、情感分析，或是文本生成上，都較原先的模型有所進步。

2019 生成式預訓練模型（GPT, Generative Pre-trained Transformer）

在Transformer模型被提出後，各類層出不窮的模型也陸續誕生，其中OpenAI的GPT-3.5就是其中之一。

GPT全文翻譯過來，白話一點就是「被預先訓練過，可以用來生成新資料的Transformer模型」。

GPT的訓練是非監督式的，在沒有特別標註數據的情況下，大量把資料餵給模型，讓他自行分類，之後再搭配人力的微調，讓他可以生成出使用者期望的內容。

也就是說，這個模型厲害的地方在於，他是從大量資料與人類引導中被訓練而成，就像一個小嬰兒慢慢學習、長大，可以了解大部分的語言，也可以依照人類的喜好和習慣，提出人性化的回應。

2021 擴散模型（diffusion model）－圖像生成領域的突破

2021年，OpenAI提出了DALL-E，在這個工具中，擴散模型取代了原先用來生成圖片的GAN，並結合Transformer，讓使用者能根據文字產生圖像。

GAN的表現是不錯的，單缺點就是輸出缺乏挑戰性，而且訓練過程很麻煩。而VAE雖然訓練較簡單，但是往往會因噪聲有損失，輸出的結果也較差。

第一個擴散模型在2014就已經被提出，他的關鍵概念在於：「既然噪聲會導致結果變差，那如果我們去學習因為噪聲而導致的信息衰減，應該就能反轉這個過程」。

整個訓練其實就是對資料集中的原圖片不斷加入高斯雜訊（Gaussian noise），讓原本的圖片逐漸變成完全的雜訊，而模型的主要工作就是想辦法把雜訊修復成原圖。

在這樣的訓練過後，就能透過輸入隨機的雜訊，讓模型算法以迭代的方式擴散噪聲來生成圖片，其中運用到了採樣器(Sampler)和解碼器(Encoder)。

2022 Chat GPT－掀起AI熱潮

Chat GPT其實就是GPT-3.5的前端，透過更容易使用的優勢，迅速傳遍了世界各地，並掀起一股AI的熱潮。

在這之後AI就如同進入了加速期，各種類型的AI紛紛出現，讓人目不轉睛。

看到這裡有沒有頭暈了（笑），要看歷史真的很累，但是如果仔細去了解他，會發現能使用到我們現在這麼方便的AI，真的是經過了許多人在靈光一現與迷惘中徘徊的努力，非常不容易。

好啦！今天的內容就到這裡，明天就說一些輕鬆點的，講講AI在各領域的應用以及優缺點吧～

Day1 旅程的起點

Day3 生成式AI的應用與優缺

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

認識AI與NLP的30日旅行團系列 第 2 篇