iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
AI/ ML & Data

認識AI與NLP的30日旅行團系列 第 2

Day2 AI國度的導覽-生成式AI歷史與介紹

  • 分享至 

  • xImage
  •  

歡迎各位第一天的旅程,今天我們來到了AI國度,就讓我們好好了解一下這裡的風景與歷史吧!

因為時間並不多,所以我們主要的導覽重點會集中在「生成式AI」,如果有什麼問題,記得及時發問哦~

上期的文章有兩篇是關於AI整體發展、分類的介紹,可以去看看:
Day2 不要以為勇者不用學歷史-簡述AI的發展
Day3 世界的面貌-AI的分類與級別劃分


生成式AI的簡介

生成式人工智慧,Generative artificial intelligence,簡稱為生成式AI或Gen AI

生成式AI的內容就如同字面上意義,只要輸入提示詞,就可以生成出文字、圖像、影像等等的內容。

這裡的生成並不是指無中生有哦,而是需要先對模型輸入大量的訓練數據,等到訓練完成後,才會根據提示詞生成出一些與數據內容相似,但又有一些新穎性的內容。

這類的AI依賴於深度學習模型,可以模擬人腦在學習上的運作,去識別大量數據並進行編碼。等到訓練完成後,再依這類訊息來理解使用者提出的問題,並給予回應。(關於深度學習的資訊可以參考這篇:Day4 奇獸圖鑑-機器學習的種類

換言之,生成式AI可以一次吸收很多很多的內容,並且利用「編碼」的方式讓自己形成各自不同的概念,在你提出提示詞後,就可以跟據你的問題找到相對的標籤,並在整理後回答你。

也因為生成的內容是經由訓練資料決定,所以對於資料量的要求也很高,各領域知識的多寡,也會影響到生成的結果。

比如GPT-4這類通用型的模型,可以解決或回答大部分人的問題,但在專業的問題上,卻可能不如單一使用一個領域資料訓練的AI強。

生成式AI里程碑簡史

想深入了解的可以參考這篇AWS網站的文章 生成式人工智能(GenAI)新世界:過去、現在和未來 個人覺得寫的很好,但如果放這裡又會太深入,有興趣的自己去看看吧!

1966年 第一個「聊天機器人」-ELIZA

生成式AI最早可追溯到MIT的 Joseph Weizenbaum 開發出的自然語言處理程序ELIZA,這是意義上第一個「聊天機器人」,雖然因為算法與數據並不完善,這個程序的能力也有限,但卻是生成式AI的一個里程碑。

1986年 後向傳播算法(Backpropagation)

由神經網絡之父 Geoffrey Hinton 提出,是深度學習和類神經網絡中最關鍵的算法。

原先的算法都是從前到後一步一步推導,透過每一次的運算,對權重進行優化以減少誤差,從而得到最好的結果。但其中有一個缺點,就是當結構很複雜時會有大量重複運算,導致每次運作都有龐大的計算量。

而反向傳播算法的提出解決了這個問題,他不同於以往由前向後的算法,而是從末端開始計算誤差和權重,藉此減少運算量。

之後被提出的遞歸神經網絡(RNN)、卷積神經網絡(CNN)都有這個算法的功勞。

2013年 自動編碼器(VAE, Variational Autoencoder)

VAE是一種深度學習的模型,其中包含兩個相連的神經網絡。

第一個是「編碼器」-將大量非結構化、未標記的訓練數據編碼(或壓縮)為參數。

第二個是「解碼器」-將這些參數重建為內容。

從這樣的過程中,可以訓練模型從不同的參數中生成新的資料。

2014年 生成對抗網絡 (GAN, Generative adversarial network)

由Ian Goodfellow 提出,之所以叫「對抗」是因為這個方法訓練了兩個神經網絡,讓他們彼此競爭,可以從中促進模型產生更真實的新資料。

第一個神經網絡是「生成器」-不斷從原先資料中修改來產生新資料。

第二個神經網絡是「鑒別器」-嘗試去預測前者生成的資料,在不斷來回往復的過程中,一直訓練到第二個系統在預測的時候分不清資料的真假,就是這個訓練的目的。

可以發現,GAN和VAE有些類似,不過雖然兩者都是基於深度學習的神經網絡,但各自神經網絡的目標和模型結構都不相同。

由GAN生成的文本和圖像已經非常逼真,尤其在風格轉換(把照片風格轉為素描)、數據增強(窗健新數據以增加訓練數據及的多樣性)等方面特別成功。

2017年 Transformer模型-文本生成領域的突破

由Google研究員Ashish Vaswani等人提出,Transformer 是基於自注意力機制(self-attention mechanism)的一種模型,這個機制聽起來很深奧,其實簡單來說也是模仿人的思考方式。

比如說,「我吃飯」這三個字,在我們看到的時候,腦中就會自動浮現出「我」、「吃」、「飯」三個字,並針對每一個字進行思考,最後歸納出他們各自的詞性和代表的位置。

簡而言之,就是在針對序列數據(比如上面所講的一段話),就可以將整句話的各字詞拆開做平行處理,而不是由前到後一個字一個字的處理,相較起傳統的RNN、CNN,大大增加了速度和準確性。

這個模型可以說是文本分析跨出的一大步,不論是在翻譯、情感分析,或是文本生成上,都較原先的模型有所進步。

2019 生成式預訓練模型(GPT, Generative Pre-trained Transformer

在Transformer模型被提出後,各類層出不窮的模型也陸續誕生,其中OpenAI的GPT-3.5就是其中之一。

GPT全文翻譯過來,白話一點就是「被預先訓練過,可以用來生成新資料的Transformer模型」。

GPT的訓練是非監督式的,在沒有特別標註數據的情況下,大量把資料餵給模型,讓他自行分類,之後再搭配人力的微調,讓他可以生成出使用者期望的內容。

也就是說,這個模型厲害的地方在於,他是從大量資料與人類引導中被訓練而成,就像一個小嬰兒慢慢學習、長大,可以了解大部分的語言,也可以依照人類的喜好和習慣,提出人性化的回應。

2021 擴散模型(diffusion model)-圖像生成領域的突破

2021年,OpenAI提出了DALL-E,在這個工具中,擴散模型取代了原先用來生成圖片的GAN,並結合Transformer,讓使用者能根據文字產生圖像。

GAN的表現是不錯的,單缺點就是輸出缺乏挑戰性,而且訓練過程很麻煩。而VAE雖然訓練較簡單,但是往往會因噪聲有損失,輸出的結果也較差。

第一個擴散模型在2014就已經被提出,他的關鍵概念在於:「既然噪聲會導致結果變差,那如果我們去學習因為噪聲而導致的信息衰減,應該就能反轉這個過程」。

整個訓練其實就是對資料集中的原圖片不斷加入高斯雜訊(Gaussian noise),讓原本的圖片逐漸變成完全的雜訊,而模型的主要工作就是想辦法把雜訊修復成原圖。

在這樣的訓練過後,就能透過輸入隨機的雜訊,讓模型算法以迭代的方式擴散噪聲來生成圖片,其中運用到了採樣器(Sampler)和解碼器(Encoder)。

2022 Chat GPT-掀起AI熱潮

Chat GPT其實就是GPT-3.5的前端,透過更容易使用的優勢,迅速傳遍了世界各地,並掀起一股AI的熱潮。

在這之後AI就如同進入了加速期,各種類型的AI紛紛出現,讓人目不轉睛。


看到這裡有沒有頭暈了(笑),要看歷史真的很累,但是如果仔細去了解他,會發現能使用到我們現在這麼方便的AI,真的是經過了許多人在靈光一現與迷惘中徘徊的努力,非常不容易。

好啦!今天的內容就到這裡,明天就說一些輕鬆點的,講講AI在各領域的應用以及優缺點吧~


上一篇
Day1 旅程的起點
下一篇
Day3 生成式AI的應用與優缺
系列文
認識AI與NLP的30日旅行團30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言