原先的提問「從 LLM 輸入問題後,按下 Enter 發生什麼事?」看似很簡單的操作,但其實現在的 LLM 服務都有滿多功能被包裹在其中。所以在開始學習這一切怎麼運作的,想先最單純的用用看 ChatGPT,並忽略所有技術細節、運作原理、專有名詞,觀察在使用 ChatGPT 時,介面上發生了什麼事?
目的是想從:純粹的觀察,跳脫既定印象,來建立對現象的理解。如果已經對服務相對熟悉的人,可以直接略過這一篇,但如果平常僅跟 ChatGPT 純聊天,可以看看這篇瞭解除了純聊天外,現在跟 ChatGPT 能做什麼?
現在對於跟 ChatGPT 對話已經在熟悉不過,我們問出一個問題,ChatGPT 會回答我們。這一段行雲流水的對話中,其實有很多小細節,例如:ChatGPT 的文字跟聊天軟體不同,總是一段段「生」出來的,有時文字生得快、有時生的慢,有時邊生中間還會有一段他的所思所想、或程式碼。
又例如:他回答完後也都會留一個 UI 互動讓我們回饋這個回答是好是壞,有時會有不同的結果跑出來,詢問我們哪一個生成結果比較好。
也會有重複相關的互動,並在接下來發現,即便一模一樣的問題,但這次生成的結果跟上次不同,為什麼?甚至可以發現雖然有很多不同,但它最一開始還是回答了一個「清楚度 9/10」的句型,這是怎麼來的?甚至有時候聊著聊著,他會突然跳出一個「已寫入記憶」,甚至 ChatGPT 很明顯的知道我的個人資料,會基於我的背景跟我聊天。
當然,還有一些以上之外的小功能,複製、分享、朗讀等等,為什麼這樣設計?
除了對話框本體,我們也可以在左上角展開,發現裡面列出了 GPT-5 自動、Thinking、Fast 甚至要升級到 200 美一個月才會出現的 Pro,同時舊版模型裡列了個 GPT-4o。雖然介面中第一時間看不出來,但現在大部分人已經很熟悉,這裡是選模型的清單。
為什麼有不只一個模型,它們有什麼差異,又為什麼舊版只有 GPT-4o?不是還有 GPT-1,2,3 一堆模型呢?
我們也不止可以跟 ChatGPT「Chat」,也可以請它做更多除了回答我們的事情,有時在對話中就會自動觸發,也可以很明確直接請它執行,但這些功能是什麼?在做什麼?
像是「連接器」看起來是來讓 ChatGPT 可以快速讀取某一些資料來源,為什麼他要取得這些資料?取得這些資料的好處是什麼?他取得資料後,我們再問一個問題又會有什麼不同?
又或者像是「代理程式模式」「深入研究」跟「網頁搜尋」中,我們實際聊一次天發現,這次按下 Enter,ChatGPT 的回答行為顯著的不同,像是「代理程式模式」的 murmur 就是會自己做一大堆在模擬電腦中的小操作。「深入研究」則會思考很久很久,並一邊 murmur 它又看了哪些哪些資料,並且最終生出一篇報告出來。「網頁搜尋」有別於原本的聊天方式,會附上參考資料。或現在在「學習與研究」中,ChatGPT 就特別喜歡透過一問一答的方式來討論。
為什麼同樣按下 Enter 但方式可以跟原本的不同?這些對話方式哪裡來的?
甚至雖然名曰 LLM(大型語言模型)但卻可以直接在相同的聊天介面中選擇「創作圖像」,就能生成圖片。為什麼啊?甚至可以還可以透過語音辨識的方式來跟我們即時對話?
同樣是問問題,也不是只能在預設的地方問問題,我們可以在「專案」底下問問題、也可以在「探索 GPT 」下有一堆 GPT 中問問題。
在專案底下,我們可以看到有別於原本預設的聊天介面,專案中還有一塊選擇新增檔案與新增指令的選項?這些會怎麼改變我送出 Enter 時的行為?
而 GPT 就又更不一樣了,每一個 GPT 點進去前還會有一個他自己的介紹,說明他要怎麼開始對話,實際點進去後進行對話,會發現他的對話風格與原本的 ChatGPT 大有不同?為什麼可以不同?那些 GPT 哪裡來的?
當然這次挑戰的大主題是「從 LLM 輸入問題後,按下 Enter 後會發生什麼事?」所以我們可以先忽略 ChatGPT API 跟 Play Ground,但其實裡面也有一大堆為什麼,也許這篇文章提到的一部份內容就順道回答了以上的問題。
實際觀察了一輪,Chat 聊天介面像是一個黑盒子,隱藏了眾多不同的 LLM 功能,面對這些情境,也瞬間在腦中可以浮現一些專有名詞像 AI Agent、Reasoning、RAG blahblah 可是這些名詞我真的瞭解嗎?
接下來將試圖先以「概念」的方式,初步回答怎麼運作,就是第一階段的目標了。