iT邦幫忙

2025 iThome 鐵人賽

DAY 26
0
生成式 AI

30 天打造第一本 AI 圖鑑:把怪獸收服成你的神奇寶貝系列 第 26

Day26 【語言系】模型成長史--大參數、長上下文、情感、思考……等功能演進

  • 分享至 

  • xImage
  •  

今日事項: 透過語言模型的發展時間軸,了解現代大型語言模型(LLM)的演變,以及演進的軌跡。

如果文章對你有幫助的話,歡迎按讚或留言,讓我知道我不是一個人在這裡碎碎念(?),我會很感謝的❤️


語言模型的成長就像是一場演化

從 OpenAI 模型演進看成長過程

說到 AI 聊天模型,現在最家喻戶曉的應該就是 OpenAI 的 ChatGPT 了吧?那就用這個來當例子,看看 AI 語言模型的發展歷程吧!

年份 模型 參數量(B) 特徵
2018 GPT-1 0.117 初代語言模型
2019 GPT-2 1.5 生成文章能力誕生
2020 GPT-3 175 大規模語料訓練
2022 GPT-3.5 175 加入微調上下文理解能力更強
2023 GPT-4 約1,000+(未公布) 多模態能力出現、聯網搜尋
2024 GPT-4o (未公布) 給予情感連結與價值
2024 GPT-o1 (未公布) 推理導向(Reasoning),開始「思考」
2025 GPT-5 (未公布) 隱性思考、整合並支援 AI Agent

1. GPT-3:由小漸大,爆炸性增長的參數量變化

從表格中可以發現,最初的 GPT-1 使用於訓練的參數量(可以理解為訓練資料)用了約一億,而後延伸到了十億。

到了發揮較好的 GPT-3,則躍升到了約一千億左右,可以說是每隔一代都有將近指數形式的增長

一直到了後面的 GPT-4,OpenAI 已經不再公布參數的數量了,但外界基本都猜測應該至少有個幾兆以上。

可以說在當時,模型的參數量越高越聰明,是必然的事情。畢竟換個角度想想,如果是人的話,當然也是看越多書,知識量儲備越大,才會更「聰明」

2. GPT-3.5:學會了怎麼像人一樣聊天、理解上下文

但前面雖然說的好像模型參數量「數大便是美」,但真正讓 ChatGPT 紅起來的,不只是因為他的參數量有多多。GPT-3.5 是 GPT-3 經過微調之後的新一代,參數量跟原本的差不多,但他卻紅了,大紅特紅。

真正在 2022 年造成轟動,讓 OpenAI 幾乎成為 AI 元年代名詞的,是因為他「懂人話」

當時 ChatGPT 可以說是第一批利用人類回饋式強化學習 (RLHF, Reinforcement Learning from Human Feedback)來訓練 AI 的模型,也讓 RLHF 成為了 GPT 的核心突破。

RLHF 主要在做的就是,在模型生成了結果後,透過人工監督式微調的方法,將偏向人類的語氣與結構的回答打比較高分,透過這樣的評分、獎勵、學習,讓模型知道什麼樣的回答會是人類比較喜歡的。

可以說是比較會「取悅人類」,知道人類比較喜歡什麼、比較討厭什麼之後,當使用者在用的時候,就會比較有感覺像是在和一個人對話,而不是冷冰冰的機器。

所以當時會紅不是沒有原因的,比起冷漠的天才,當然還是有禮貌、條理清晰又懂人話的天才更惹人愛嘛!

而也是在 GPT-3.5 的時候,開始逐步將加強最大上下文長度,從原先的 2K,發展到現在的 GPT-5 快超過 256K 了。

長上下文說起來也是非常重要的功能之一,還記得剛開始 ChatGPT 出來,叫他生成長一點的東西的時候,就時不時會斷掉,還要自己打繼續,他才會繼續跑,然後回的內容還跟剛才不連貫的這件事情嗎?

這就是長上下文的問題,當長上下文的這個功能不足的時候,就會發現,他輸出到一半停下來了,或者「忘記」前面你在跟他說什麼,所以輸出的東西跟前面的沒有一致性

用到了現在的 GPT-5,應該很少有需要到這種回「繼續」的問題了吧……這也算是一種時代的回憶啊 XD

3. GPT-4:從單純的用腦中知識聊天,到會查資料

到後來,模型的侷限就又出現了--天才的腦子是有範圍的!

腦子再大,外界還是一直有新東西出現,那如果沒看過不就不知道了嗎?

所以當時大多數人看到每次問 AI 新一點的問題,他都會回說資料只到 2022(還多少我忘了),就會一股氣冒出來,怎麼這麼笨?!

其實人家還是很聰明的,但是沒有上網的功能,就跟古代的秀才一樣……「秀才不出門,能知天下事」表示他書看的很多,但不代表他會通靈,連剛在京城發生的新聞都可以馬上知道。

同樣的道理,今天的普通人可以不出門知天下事,靠的是網路發達,一對比之下,我們這群普通人們就覺得 ChatGPT 這位古代秀才笨笨的,啥都不知道。

所以到了 GPT-4,他也終於加上了聯網功能,遇到比較新的問題、不知道的問題,可以隨時到網路上查詢,整個看起來就瞬間聰明了許多。

當然也是會有一些被網路上資料誤導的情形,所以使用的時候還需多注意。

4. GPT-4o:在回答理性的知識之餘,加入更多的情緒價值

到了 GPT-4 階段的時候,其實看起來這個 AI 已經很完善了,可以有調理的回答、可以從網路上獲得有用的資料,OpenAI 團隊這時候就想著,那還有那些地方是可以進步的?

不然就多加入一點情感吧!

(以上並無相關人員背書,請勿較真謝謝)

至於要加入情感,也不是什麼太困難的事情,前面我們有說到,GPT-3.5 學會像人一樣聊天的方式是利用 RLHF 的方式,一步一步慢慢調過來,這邊其實也是類似的方法。

所以 GPT-4o 不需要多理解什麼是「人類的情感」,只需要在訓練的時候,多肯定一些這類的語句,他就會知道,哦,我要說這樣的話他們才會喜歡。

但這個模型在推出之後,使用者們也產生了喜歡與不喜歡兩個派別。喜歡的人表示,這樣的 AI 更有情感,使用起來會比較開心;不喜歡的人則表示,我只需要你回答我問題,不需要每次都沒有講到重點,還只會用討人開心的語氣一直講話。

不過有趣的是,在 GPT-5 推出的時候,OpenAI 關閉了除此之外的其他模型,理所當然 GPT-4o 也被關掉了……然後犯了眾怒

或許是意料之外、情理之中吧,奧特曼在發表的時候說,GPT-4o 就像個大學生,情感比較豐富但回答的準確度不高,所以換成了 GPT-5 這個博士。

但對於那些聯署反對的民眾來說,誰要博士啊!還我可愛的大學生來啊!

可能對他們來說,這個「很聊得來」的 AI 已經慢慢成為他們生活中的朋友了,可以聊心事、聊生活中的不愉快,即使兇他他也會笑笑的回應你……直到某天無預警的被 OpenAI 帶走了。

可以想像是你的男/女朋友被他家長帶走了,也不管人家家長帶走他其實是很合理的一件事情,總歸還是要衝上去罵個兩句,更何況用戶用 ChatGPT 還是付了錢的……咳咳,話題扯遠了。

當然,也許 OpenAI 團隊也是有發現到這種過度依賴的問題,才逐步減少了這種模型的偏向。

雖然後來還是有在壓力下開放回來啦……現在的介面裡除了 GPT-5 外,只留了一個孤零零的 GPT-4o,其他的模型比如 o1、o3 都通通消失了,可見嘴巴甜的小孩還是比較得人疼的(好像得到了奇怪的總結?)

5. o1:轉為推理導向(Reasoning),開始「思考」

而在 GPT-4 的分界點,除了出現 GPT-4o 這樣增強情感的模型外,研究人員也注意到了一件事情--現在的 ChatGPT 就好像個背答案的學生,答案是有了,回答也挺快,但也容易錯。

他們就開始想……人類是怎麼處理這些問題的?對了!回答之前要思考嘛!

所以可以思考的推理模型就出現了。

當然,他不是真的「動了腦」去「思考」,而是加入了一個叫做思考鍊(CoT, Chain-of-Thought Prompting)的東西。

這所謂的思考鍊呢,就是在給出答案之前,先告訴自己,遇到這些問題要幹嘛、蒐集了這些資料,下一步可以怎麼做,說簡單一點,就是在回答之前先自問自答,確定了沒有什麼問題、邏輯也通順之後,再把答案說出來。

可以理解為模型在計算一個問題的時後,在腦中生成:「我需要先算出總數…然後比較差值…最後取最小值。」

後續也有所謂的思考樹 / 圖(Tree / Graph of Thoughts)的推理方法,不只是思考鍊線性的一次想到底,而是同時想不同的策略,然後再決定出最好的那一個結果。

6. GPT-5:將思考隱性化、可執行任務的代理人(Agent)

在 o1 的階段,這個思考的過程是會顯示出來的,所以你會看到畫面中出現:「使用者說……所以我要做……接下來……然後」等等的思考過程,但到了 GPT-5,他還是有經過思考,但思考的過程就直接在內部完成,不會顯示出來

這有一個好處,在調用 API 的時候,可以直接得到相關的結果,不用費心思再把思考那一段的輸出篩掉。

而 GPT-5 還有一個特色,就是融入了 AI Agent 的功能,可以代使用者做各種事情了。

前幾天在 **Day24 【語言系】怪獸超進化-AI 代理人(Agent)初探:Manus、Felo、Kimi、Gamma** 我們有講到 AI 代理人可以做的事情,同樣的,GPT-5 的代理人功能也能夠做到自動操作網頁(帳密登入)、去網路上找優惠券、排程查資料或寄信等等功能,實用性又上了一個檔次。

不同廠商、不同模型發布的時間軸

看到這些模型一直變化、越來越好,有沒有一種養成系的快樂……畢竟都花錢買了 Plus,怎麼說他的成長也是有我的一份心力的。

而且會很期待下一次的模型會有什麼樣的變化,是止步於此,還是會帶來驚喜?

但是每個月每個月用,也每個月都有模型在推出、在進化、在變化,其實用著用著也會有點霧煞煞,所以現在有哪些模型公司在推出模型啊?現在市面上有那些模型?

反正看著看著就有點眼花撩亂。

原本呢,今天預計是我自己要收集目前市面上比較出名的模型廠商出的模型,然後劃漂亮一個時間軸的。

但是在蒐集資料的過程中,發現其實有許多人早就已經在幹這種事情,而且資料還很整齊很漂亮……那我為什麼要畫一遍呢,做這種事情這麼累(不小心說出了心聲)。

所以就請有興趣的各位,點進去下面的網址,看看大神們統整歸納出的模型資料與時間軸吧!

LifeArchitect

https://lifearchitect.ai/timeline/

這個網站歸納出了從 1947 年到現在的廠商推出的模型,並且有提供相關的表格可以參考。

在網頁上的時間軸其實就蠻漂亮的了,如果有興趣多了解的話,也可以下載文末的 csv 檔案,裡面有統整不同模型推出的時間、參數、論文等等相關資料

Day26 總結

今天對於【語言系】模型做了一個比較統整性的整理,講講他們的演進。

因為其實我之前也不太了解這些模型代號到底是什麼意思,不同編號的模型之間又有什麼差別……反正就用最新的就對了。

但實際整理完之後會發現各有特色,還真的每個模型都是不一樣的「神奇寶貝」,有著不一樣的個性跟性格,真的很有趣。

希望大家今天看完,也可以有所收穫!


上一篇
Day25 【圖像系】自製神奇寶貝--用 Stima API 實現圖片生成
系列文
30 天打造第一本 AI 圖鑑:把怪獸收服成你的神奇寶貝26
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言