Sam Altman: 早安,歡迎來到 DevDay。感謝各位來到舊金山,這裡是 OpenAI 的起點,也是我們致力於打造 AI 未來的地方。距離我們第一屆 DevDay 已經快兩年了。從那時起,我們,以及最重要的,在座的各位,都取得了長足的進步。
回溯到 2023 年,我們擁有 200 萬名開發者和 1 億名 ChatGPT 每週活躍用戶。我們的 API 每分鐘處理大約 3 億個 token。在當時,這感覺是個很大的數字。
如今,已有 400 萬名開發者使用 OpenAI 進行開發。每週有超過 8 億人使用 ChatGPT。我們的 API 每分鐘處理超過 60 億個 token。AI 已經從人們的玩物,變成了日常開發的工具。
在我們公佈所有新消息之前,想先來點有趣的。我身後的螢幕上,是在座開發者的名字,他們在我們的平台上開發的應用程式已經達到了一些不可思議的里程碑——處理了 100 億、1000 億,甚至一兆個 token。讓我們為他們鼓掌。
[掌聲]
我代表 OpenAI 的全體同仁,謝謝你們。是你們在推動未來前進。看到這一切,讓我對未來充滿樂觀。
雖然慶祝我們已有的成就是一件令人興奮的事,但我們仍處於這段旅程的早期階段。今天,我們將專注於對你們最重要的事情:我們如何讓 AI 開發變得更容易。我們一直在傾聽開發者的聲音——了解你們在哪裡遇到困難,以及你們下一步想開發什麼。
今天我們為大家準備了四件事。我們將展示如何讓在 ChatGPT 內部建立應用程式成為可能,以及我們如何幫助你獲得大量的分發。我們將展示如何讓建構代理人(agents)變得更快、更好。你將看到我們如何讓編寫軟體變得更容易,承擔重複的編碼工作,讓你可以專注於系統和創造力。在所有這些底層,我們將為你更新模型和 API,以支持你正在建構的任何東西。
這是歷史上成為開發者的最佳時機。從想法到產品從未如此之快。你可以感受到這種加速。
首先,讓我們來看看 ChatGPT 內部的應用程式。我們建構 ChatGPT 是為了幫助人們取得進展,變得更有效率、更有創造力、學習得更快。我們不斷對人們使用它的創意方式感到驚訝。自從我們的第一屆 DevDay 以來,我們一直致力於向開發者開放 ChatGPT。我們推出了像 GPTs 這樣的能,並採納了像 MCP 這樣的標準,讓開發者可以將 ChatGPT 連接到各種應用程式。有些成功了,有些沒有。但我們學到了很多。
今天,我們將向開發者開放 ChatGPT,讓他們可以在 ChatGPT 內部建構應用程式。這將催生新一代的應用程式,它們是互動的、自適應的、個人化的,你可以與之對話。為了建構它們,我們推出了一個新的 Apps SDK,現已提供預覽版。
透過 Apps SDK,你可以獲得完整的堆疊,可以連接你的數據、觸發操作,並渲染一個完全互動的使用者介面等等。Apps SDK 是建立在 MCP 之上的。你可以完全控制你的後端邏輯和前端 UI。我們已經發布了這個標準,所以任何人都可以整合 Apps SDK。當你使用 Apps SDK 建構時,你的應用程式可以觸及數億的 ChatGPT 用戶。這對於開發者如何快速擴展產品將是一件大事。
[掌聲]
謝謝。如果用戶已經訂閱了你現有的產品,他們可以直接在對話中登入。未來,我們將支援多種變現方式,包括新的代理商務協議(Agentic Commerce Protocol),它可以在 ChatGPT 內部提供即時結帳。
讓我們看幾個例子。當有人使用 ChatGPT 時,他們可以透過名稱來尋找應用程式。例如,你可以上傳一個產品流程的草圖到 ChatGPT,然後說「Figma,把這個草圖變成一個可用的圖表。」Figma 應用程式將會回應並完成操作。如果你想進一步迭代,你還可以從 ChatGPT 啟動 FigJam。
我們也讓應用程式可以在對話中被發現。當用戶提出請求時,我們可以將相關的應用程式作為建議呈現。所以當用戶說他們需要一個週末派對的播放清單時,ChatGPT 可以推薦在 Spotify 中建立。這是在對的時機找到對的應用程式的簡單方法,並為開發者提供了一種全新的被發現的方式。
現在我想邀請 Alexi 上台為大家做一個現場示範。
[掌聲]
Alexi: 我是 Alexi,ChatGPT 的一名軟體工程師,也參與了這個功能的開發。我很興奮能展示一些用戶將能直接互動的首批應用程式。這些應用程式的魔力在於將其豐富的互動視覺效果與 ChatGPT 的強大功能相結合。
讓我們從 Coursera 開始。假設我想學習 UX 設計。我可以在 ChatGPT 中請求 Coursera 應用程式幫助我學習。 「Coursera,教我一些關於機器學習的知識。」由於這是我第一次在 ChatGPT 中使用 Coursera,我需要同意連接。下次使用時,我就可以直接進入了。你會注意到我直接向 ChatGPT 請求了 Coursera 應用程式,但如果與對話相關,ChatGPT 也可以建議應用程式。
ChatGPT 中的應用程式會內嵌在對話中顯示,並且可以支援任何你可以在網路上渲染的內容,比如這裡顯示的影片。Apps SDK 還支援畫中畫或擴展到全螢幕影片佈局。現在我的課程已經打開,讓我們播放影片。播放影片會立即將其固定在螢幕頂部,這非常有用,因為你可以在觀看影片的同時存取你的對話。
假設我想深入了解影片中提到的某個內容。我可以問 ChatGPT:「你能解釋一下他們現在在說什麼嗎?」Apps SDK 提供了一個 API,可以將你應用程式中的上下文回傳給 ChatGPT,確保模型始終確切地知道你的用戶正在與什麼互動。我們稱之為「與應用程式對話」,這正是其魔力的一部分。
我對透過 ChatGPT 學習這個我們最頂級的用例之一,能夠持續變得更好感到非常興奮。透過應用程式和 Apps SDK,你可以為全球用戶解鎖更豐富的教育體驗。這解釋了在訓練機器學習模型之前的數據準備步驟。我不需要解釋,ChatGPT 馬上就看到了。我將能夠連接 Coursera 應用程式,並在我的 ChatGPT 對話中直接透過文字與影片互動。非常酷。
用戶也喜歡在 ChatGPT 中發揮創意。這裡我有一個對話,我一直在腦力激盪一些想法,幫助我弟弟的遛狗生意。我們來回討論了幾次。我對其中一些想法很滿意,讓我們用這個名字。「Canva,用這個名字為我做一個作品集。我希望它色彩繽紛、異想天開、明亮,並使用無襯線字體。」Canva 非常擅長創建這樣的資產,現在你可以直接從 ChatGPT 啟動它。無論你是在為 OpenAI 製作行銷資產,還是僅僅為 DevDay 做一個有趣的示範,Canva 就在你的對話中與你同在。
Apps SDK 是建立在 MCP 上的,這是我們在 OpenAI 非常喜歡使用的一個開放標準。如果你已經有一個現有的 MCP,用 Apps SDK 來增強它會非常快,你所要做的就是添加一個返回 HTML 模板的資源,然後這個應用程式就能在 ChatGPT 分發的任何地方出現,比如網頁或行動裝置。
正如你所見,這是一個現場示範,所以我們遇到了一點延遲。我們看到它們像影片一樣內嵌顯示,同時 ChatGPT 也解釋了它做了什麼。我們可以在 Apps SDK 中探索另一種模式,全螢幕。我可以打開一張特定的海報以查看更多細節,甚至在 ChatGPT 中跟進請求更改,就像我們的圖片生成體驗一樣。
但既然我們在舊金山,而且今天是 DevDay,讓我們請 Canva 把這些轉換成一個簡報(pitch deck)。我可以說:「Canva,請把這張海報做成一個簡報,我們正試圖為遛狗生意籌集種子輪資金。」我發送出去,現在 Canva 將會製作一個投影片。在它載入的同時,我們來展示另一個示範。
假設遛狗生意進展得非常好,我們想擴展到另一個城市!我可以問 ChatGPT 我們應該擴展到哪裡。ChatGPT 知道我們一直在談論什麼,非常熱情地說是匹茲堡。我可以調用 Zillow 說:「顯示那裡的待售房屋。」現在它正在與 Zillow 對話,以獲取最新數據並在 ChatGPT 中嵌入一個互動地圖。我們有地圖了,正在載入——砰,我們這裡有房屋的備份了。
[掌聲]
看起來我們的投影片也做好了,稍後再回來看。這個地圖在內嵌視圖中有點難看清,所以我可以點擊一個房屋並全螢幕打開它。我們將大部分 Zillow 的體驗嵌入到 ChatGPT 中,可以請求參觀以及你期望從 Zillow 獲得的操作。我們有很多選項,很難解析(parse),所以我請 ChatGPT 過濾出只有三間臥室且有院子的房屋。因為應用程式是全螢幕的,它會更新提供給它的數據,而無需創建新實例。我們看到 ChatGPT 回來了,訊息疊加顯示,我可以在 Zillow 應用程式上查看我的對話。酷。讓我們放大並找到一個我們可能感興趣的特定房屋。
現在,因為 Zillow 應用程式正在將上下文回傳給 ChatGPT,它知道我正在看什麼,我可以詢問關於房屋的更多資訊,比如「這離狗公園有多近?」ChatGPT 能夠將來自 Zillow 的上下文與其可用的其他工具(如搜尋)結合起來。它能夠提供關於房屋的更多資訊,從這裡我可以調用其他工具來了解負擔能力,但它每次都提供最佳答案。這是一個很好的例子,說明了使用 Apps SDK 的體驗可以多麼動態,從一個內嵌地圖開始,我們能夠在與應用程式對話和向 ChatGPT 提問或使用 Zillow 體驗之間來回切換。
讓我們回頭看看那些投影片。如果我切換到這個對話,看到 Canva 給了我們一些選項。我喜歡這個藍色的外觀,所以如果我們打開它,我們可以在全螢幕中看到投影片,我可以看到 Canva 為我生成的所有漂亮的投影片。當我準備好時,我可以…
[掌聲]
就像海報一樣,我可以要求後續的編輯,當我準備好時,我可以在 Canva 中打開它並完成種子輪融資。這就是應用程式的魔力。將你最喜歡的產品結合起來,產生真正新穎的體驗。我非常興奮能與大家一起繼續建構這個功能。迫不及待想看看你們會用它做些什麼。
[掌聲]
Sam Altman: 謝謝 Alexi。在這麼多人面前同時打字和說話是很難的。我們很高興你能試用你在示範中看到的應用程式,以及我們這些啟動合作夥伴提供的更多應用程式。它們今天將在 ChatGPT 中可用。而我們才剛剛開始。我們將在未來幾週內推出更多合作夥伴的應用程式。
對於開發者,Apps SDK 今天已提供預覽版供大家開始建構。我們的目標是盡早將它交到你們手中,聽取你們的反饋,並與你們一起建構它。今年稍後,開發者將能夠提交應用程式進行審核和發布。我們還將發布一個用戶可以瀏覽的目錄。除了在對話中發現之外。任何符合我們開發者指南中標準的應用程式都有資格被列出。符合更高設計和功能標準的應用程式將被更顯著地推薦——包括在目錄中,以及如我們所示,在對話中作為建議應用程式。我們今天與預覽版 Apps SDK 一起發布了我們的開發者指南草案,這樣你就會知道該期待什麼。我們很快會有更多關於應用程式變現的資訊分享,並希望得到你們關於想要什麼的反饋。這將是開發者和 ChatGPT 用戶的一個激動人心的新篇章。
這就是應用程式。我們希望每個人都喜歡它。
[掌聲]
好的。接下來,讓我們看看我們如何讓建構有效的代理人(agents)變得更簡單。AI 已經從你提問的系統,轉變為可以為你做很多事情的系統。我們開始透過代理人看到這一點,這是一種可以利用上下文、工具和信任來執行任務的軟體。
但儘管圍繞代理人的熱情很高,實際上很少有能進入生產環境並大規模使用。很難知道從哪裡開始,信任哪些框架。而且工作量很大:協調(Orchestration)、評估循環(Eval loops)、連接工具、建構一個好的 UI。在你甚至不知道這個想法是否可行之前,每一層都增加了複雜性。儘管如此,這裡充滿了巨大的能量,機會也非常真實。我們與數千個正在建構代理人以重新構想工作方式的團隊進行了交談。我們能做些什麼來讓代理人更容易建構呢?
所以今天,我們將推出一些新的東西。為每一個想要更快地從想法到代理人的開發者而設。我們很高興地介紹,AgentKit。
AgentKit 是 OpenAI 平台中提供的一套完整的建構模塊,旨在幫助你將代理人從原型帶到生產。它為你提供了建構、部署和優化代理工作流程所需的一切,速度更快,摩擦更少。從個人開發者到大型企業,每個人都將從中獲得巨大價值。
我們現在來談談這些功能。Agent Builder 是一種快速的視覺化方式,用於設計邏輯步驟、測試流程和發布想法。它建立在數十萬開發者已經在使用的 Assistants API 之上。所以如果你以前使用過我們的平台,你應該對這個基礎很熟悉。
第二是 ChatKit。我們讓將出色的聊天體驗直接帶入你自己的應用程式變得容易。你得到一個簡單的、可嵌入的聊天介面,你可以自己定制。帶上你的品牌,建構你的工作流程,專注於讓你的產品獨一無二。
最後是 Evals for Agents。我們正在推出專門用於衡量代理人性能的新功能。你得到追蹤評分(trace grading),以逐步了解代理人的決策。你得到數據集,以便評估單個代理人節點。我們增加了自動化的提示詞優化。你甚至可以直接在 OpenAI Evals 平台內對外部模型運行評估。這就是我們當初在建構代理人時所希望擁有的一切。
當然,代理人需要存取數據。透過 OpenAI 的連接器註冊表,你可以透過管理員控制面板安全地將代理人連接到你的內部工具和第三方系統,同時保持一切安全並在你的控制之下。
讓我們看幾個例子。Albertsons 在美國經營著超過 2000 家雜貨店,每週有超過 3700 萬人在那裡購物。每家店都像一個小經濟體。經理們必須不斷做出決策。促銷、產品組合、陳列、供應商。這是一項繁重的工作。所以 Albertsons 使用 AgentKit 建構了一個代理人。現在想像一下,冰淇淋的銷售額意外下降了 32%。以前,這會引發一個漫長的報告、電子表格和會議過程。現在,店員只需問代理人發生了什麼。代理人會查看完整的上下文——季節性、歷史趨勢、外部因素——並給出建議。也許是時候調整陳列或進行本地廣告了。
讓我們看另一個代理人。HubSpot 是一個客戶平台,被全球數十萬個組織使用。他們使用 AgentKit 來改進 Breeze(HubSpot 的 AI 工具)的回應,使用了自定義回應小工具。在這個例子中,HubSpot 的一個客戶 Luma Plants 收到一個問題,關於為什麼一株植物在亞利桑那州可能長得不好。它使用 Breeze 助理搜尋自己的知識庫,查找該州低濕度的本地處理方法,引入政策細節,並將所有內容整合在一起。然後它提供多種解決方案,包括一個建議。這是在不同來源之間工作的智慧,所有來源協同運作,以提供聰明、有用的答案。這是你可以用 AgentKit 建構的東西的一個很好的例子。
我們有很多很棒的啟動合作夥伴,他們已經使用 AgentKit 擴展了代理人。從今天開始,它對所有人開放。那麼讓我們來看一個示範,看看它是如何運作的。我把時間交給 Christina。
[掌聲]
Christina: 謝謝 Sam!大家好,我是 Christina,我在建構 AgentKit 的團隊工作。今天,我想向你們展示 AgentKit 如何幫助開發者以前所未有的速度創建代理人。
你們可能已經看過我們的 DevDay 網站——你們所有人都可以訪問的網站,上面顯示了今天日程的所有內容。但現在,它只是一個靜態頁面。如果它能實際幫助你導航這一天,並指向與你最相關的會議呢?我們是 OpenAI,我們的 DevDay 網站需要有 AI。所以這就是我們將一起建構的——一個由 AgentKit 驅動的代理人,直接部署在這個網站內。
為了讓這件事更有趣,我給自己 8 分鐘的時間,在你們面前建構並發布一個代理人。
[掌聲]
你剛才聽到建構一個代理人有多難,所以這將是一個挑戰。我現在開始計時,以示誠信。
我從 OpenAI 平台的工作流程建構器開始。我們不是從程式碼開始,而是可以視覺化地連接節點。Agent Builder 幫助你以一種簡單且視覺化的方式建模複雜的工作流程,使用我們從建構代理人中學到的常見模式。在左邊,我們已經提取了常見的建構模塊。例如工具、人在迴路中(human in the loop)、護欄(guardrails)和邏輯節點。
我計劃建構一個工作流程,使用一個專門的會議代理人,以及一個更通用的 DevDay 資訊代理人。我從一個代理人開始,對傳入的訊息類型進行分類,無論是詢問會議資訊還是關於 DevDay 的更通用的問題。我添加了一個 if/else 節點,根據該分類器來路由行為。
接下來,我將創建會議代理人。我稱之為 Session Agent。給它關於抓取會議資訊的上下文。然後我可以添加各種工具,今天我已經有一個包含會議資訊的文件,所以我會把它放進去。將其命名為 Session 並附加。這包含了回答我問題所需的所有資訊。
顯示日程應該是有趣且視覺上吸引人的——而不僅僅是純文字——所以我還會為它們創建一個小工具(widget)!我會去我們的小工具建構器,在那裡我已經設計了一個會議小工具,在這個例子中是為一個 Froge 101 課程。我只需要下載小工具,然後回到代理人並將其附加為我們創建的會議代理人的輸出格式。
現在,我將再次拖入一個代理人節點,稱之為 Dev Day Agents。給它關於它在做什麼的上下文,並讓它以 Froge 的風格說話,使其與當天的品牌保持一致。添加一個文件,我們有一個包含當天所有資訊的文件。稱之為 DevDay。附加它。這個代理人準備好了。我們會把它附加到這裡。
現在看來我還有幾分鐘,所以讓我們用一個預建的護欄增加一些額外的安全性。建構代理人時最重要的事情之一是信任,而護欄可以幫助你擁有那份信心,防止幻覺,增加審核,並遮罩個人可識別資訊(PII)。我們有幾個預建的護欄。我會為 PII 打開一個,並包含姓名,這樣我就可以輕鬆驗證行為,並將其連接到工作流程的開頭,以確保 Froge 受到 PII 的保護。
我認為這個工作流程已經準備好了,我可以配置輸出,以決定向最終用戶顯示什麼。在這種情況下,如果文件搜尋來源更偏向內部,我可以關閉它。我可以在 Agent Builder 中預覽。我可以問:「參加哪個會議可以了解更多關於建構代理人的資訊?」它正在檢查護欄,從我剛才添加的會議文件中提取資訊,使用我添加的小工具找到合適的會議,並確定在 11:15 的「大規模協調代理人」是我最好的選擇。我看到它還加入了一些「ribbits」(青蛙叫聲)。我認為這個代理人看起來不錯。
所以我們剛剛使用工具建構了幾個專門的代理人,添加了護欄,用一些小工具對它們進行了自定義,並在預覽中測試了我們的工作流程。現在,我們還沒有做的一件事是進行一整套的評估,我也可以直接在我們的平台中進行,以確保它在上線前表現如預期。但現在,我有一個巨大的時鐘在追趕我,而 DevDay 正在等待。所以讓我們發布這個,稱之為 Ask Froge,點擊發布,我就有了一個完全部署的、在生產環境中的代理人,帶有一個工作流程 ID,我可以直接用它來運行。
[掌聲]
在右邊我們有程式碼片段,以防我想在自己的環境和伺服器上運行,但你可以看到這需要寫相當多的程式碼,所以我將堅持使用我們創建的工作流程 ID,然後回到我的網站。在我的 DevDay 網站中,我將使用我們剛剛創建的工作流程創建一個會話。把它放進去。然後我將放入 ChatKit React 組件,將會話密鑰交給它,並用 Froge 的主題色添加一些視覺自定義。它將被稱為 Ask Froge,並在佔位符中繼續發出「ribbit」聲,並有 Froge 特定的顏色和啟動提示。我將添加這個 Froge 聊天,讓它從頁面底部彈出,最後,我將在網站頂部添加一個指向 Ask Froge 的連結,讓它在網站上處於顯眼位置。
讓我們回到網站。它就在那裡。讓我們試試看。「參加哪個會議可以了解關於建構代理人的資訊?」這正在運行我們剛剛創建的相同工作流程,檢查護欄,對訊息進行分類,從文件搜尋工具中提取資訊,使用我們設計的小工具,然後決定「大規模協調代理人」是我應該參加的會議,並繼續以 Froge 的風格發出「ribbit」聲。我們做到了!
[掌聲]
代理人準備好了,還剩下 49 秒。我可以繼續直接在視覺建構器上迭代,並將更改部署到我的網站,而無需進行任何程式碼更改。這包括為其他用例添加新工具、新小工具和護欄,我甚至可以將其連接到客戶端工具,以直接在網站中執行操作。
所以在短短幾分鐘內,我們視覺化地設計了一個代理人工作流程,我們添加了一些工具和小工具,我們預覽了它,部署了它,現在你們都可以使用它了。它現在實際上在你們的 DevDay 網站上是即時的!你們可以看到並使用它,找到最適合你們的會議。我們期待你們使用它,也期待看到你們將用 AgentKit 建構的新體驗。謝謝,現在交還給 Sam。
[掌聲]
Sam Altman: 謝謝你,Christina!太酷了。我迫不及待想看看你們會用它建構什麼。
所以我們看了 AI 應用程式、代理人,但現在讓我們轉向同樣重要的事情。我們如何編寫軟體。AI 正在發生最令人興奮的事情之一是,我們正在進入一個改變軟體編寫方式的新時代。任何有想法的人都可以為自己、他們的家人或他們的社群建構應用程式。
我們想向你們展示幾個例子。在日本,一位 89 歲的退休人員在 ChatGPT 的幫助下自學了程式設計。他現在已經為老年用戶建構了 11 個 iPhone 應用程式。他正在將一生的智慧轉化為幫助他人更獨立生活的工具。
在西班牙,Pau Garcia 和 Domestic Data Streamers 的成員使用 ChatGPT、圖像生成和 Sora 幫助人們重新與記憶連接。
在亞利桑那州立大學(ASU),醫學生需要一種更好的方式來練習他們將來作為醫生會遇到的那種艱難的、人性化的對話。所以他們用我們的模型建構了一個虛擬病人應用程式,他們可以在進入真實的考場之前嘗試、失敗並變得更好。
在法國的凡爾賽宮,遊客現在可以漫步宮殿並與之對話。他們建構了一種體驗,你可以使用我們的即時 API 與藝術品和雕塑進行即時討論。歷史變成了一場對話。看到人們正在建構的東西真是太棒了。這就是為什麼我們很高興能為開發者提供更多工具來更快地建構。
今年早些時候,我們推出了 Codex 的研究預覽版,這是 OpenAI 的軟體工程代理人,旨在與開發者並肩工作,加速軟體的創建過程。從那時起,Codex 已經成長為一個更有能力的協作者。它在你編碼的任何地方都能工作。你的 IDE、終端、GitHub,以及雲端。你的 ChatGPT 帳戶將這一切連接起來,所以你可以在這些工具之間無縫地轉移工作。我們為 Codex 發布了大量新功能。它現在運行在新的 GPT-5-Codex 模型上,這是我們專門為 Codex 和代理編碼訓練的 GPT-5 版本。這個模型在程式碼重構和程式碼審查等任務上表現更好,並且可以根據任務的複雜性動態調整其思考時間。
開發者們喜歡這個新模型。Codex 的使用量增長得非常快。我們的一個關鍵指標是每日訊息量,即開發者每天與 Codex 進行的任務和對話的數量。自 8 月初以來,Codex 的每日訊息量增長了 10 倍。這種快速的使用也幫助 GPT-5-Codex 成為我們有史以來增長最快的模型之一。自發布以來,我們已經處理了超過 40 兆個 token。
在內部,Codex 在我們建構的任何地方都存在。今天在 OpenAI 編寫的幾乎所有新程式碼都來自 Codex 用戶。我們使用 Codex 的工程師每週完成的拉取請求(pull requests)多了 70%。幾乎每一個 OpenAI 的 PR 都會經過 Codex 的審查——其深度甚至超過你對一位非常資深的工程師的期望。
從今天開始,Codex 脫離研究預覽版——並正式 GA(正式發布)。
[掌聲]
謝謝。雖然 Codex 已經在個人開發者中獲得了很大的吸引力,但我們正在引入一套新功能,使 Codex 對工程團隊更有幫助。首先,一個 Slack 整合。這是一個被強烈要求的功能。所以你可以直接在 Slack 的團隊對話中要求 Codex 編寫程式碼或回答問題。第二,一個新的 Codex SDK,幫助你在團隊自己的工作流程中擴展和自動化 Codex。第三,新的管理工具和報告,包括環境控制、監控和分析儀表板等,以便企業可以更好地管理 Codex。期待很快看到更多 Codex 的改進。
看到使用 Codex 的人群廣泛,這是一件非常鼓舞人心的事情。從週末開發副業專案的開發者,到高增長的初創公司,再到全球企業。思科(Cisco)在其整個工程組織中推廣了 Codex。他們現在能夠將程式碼審查速度提高 50%,並將平均專案時間從幾週縮短到幾天。
所以對於我們的下一個示範,我們想做一些有趣的事情。我們想向你們展示如何使用 Codex 和我們的 API 將你周圍的任何東西變成可行的軟體。請歡迎 Romain 上台。
[掌聲]
Romain: 謝謝 Sam!大家早安!去年,我們從零開始建構了一個 iPhone 應用程式,並使用我們的第一個推理模型 O1,在舞台上現場編程了這個迷你無人機。在我們甚至還沒有給它起名字之前,這有點像「vibe-coding」。從那時起的進步是令人難以置信的。Codex 現在是一個能夠理解你的上下文、與你並肩工作,並可靠地為你的團隊承擔工作的隊友。
我們思考了如何最好地向你們展示 Codex 能做的所有酷事。我們有很多想法!但我們一直回來的一個想法是,我們能不能建構一個我們所有人都能在這裡、此刻、在這個房間裡一起看到和體驗的東西?所以這就是我們的挑戰!
如果你抬頭看,你可能會注意到我們上方安裝了一個攝影機。我想也許我們可以從那裡開始。早些時候,我要求 Codex CLI 根據我畫的這張快速草圖,創建一個帶有攝影機畫面和一些控制項的簡單控制面板介面。然後我添加了 Figma 品牌,使其完美匹配我們的設計。這是我們開始的地方。讓我們看看我們還能在此基礎上做些什麼。
現在,切換到我的終端,你可以看到由 GPT-5-Codex 驅動並登入到我 ChatGPT 帳戶的 Codex CLI。讓我們從一個你可能從未問過你的編碼代理人的問題開始:「你能快速制定一個控制 Sony FR7 攝影機的計劃嗎?」我真的不知道如何開始。我只看到攝影機有一個 C++ SDK,我想,Codex 可能會嘗試將其翻譯成 JavaScript。你可以看到 GPT-5-Codex 如何快速回應這樣的問題。
好的,為了節省時間,我要求 Codex 實現 VISCA 協議並將其連接到我們的控制面板。順便說一句,Codex 越來越難以示範,因為它真的可以不知疲倦地處理你的任務:我見過它在大型重構上連續工作超過 7 個小時。並且做對了。如果我切換過去,這是最終的結果。它在那個任務上工作了超過 13 分鐘,完成了我想要它做的所有事情。如果我跳到 VS Code,我們在那裡也有我們的 Codex 整合。這些是 Codex CLI 生成的文件。Codex 建構了一個 Node 伺服器。想像一下學習這個超過 30 年歷史的協議需要多少時間。Codex 發現需要為這個攝影機發送一些非常特定的標頭。所以有了這個 UI 組件連接好後,我們可以試試這個。在這裡,如果我打開攝影機,讓我們試試控制項。我現在可以從這個介面控制攝影機了。酷。
我想我們可以做得更好。我將嘗試在我們的 IDE 擴展中現場發送另一個任務。「連接一個無線控制器來控制攝影機。」我現在發送這個。早些時候在後台,我發現了這個 Xbox 控制器,覺得可以試試。如你所見,Codex 制定了一個計劃,它現在正在探索文件,找出如何連接這個遊戲手把。有趣的是,你可以在 IDE 中看到我們有「上下文」這個概念。你的提示可以很短,因為 Codex 會理解你的意圖,看到你最近使用的文件,並相應地進行調整。正如你所見,任務 2 還需要一分鐘,所以我們先把它放在後台。
我們還能做什麼?我認為一個令人興奮的介面是語音。所以為了節省時間,我要求 Codex 與我們的即時 API 和我們的 Agent SDK 整合,連接到螢幕底部的這個點上。很棒的是,它將自然的語音對語音帶入你的應用程式,而且還能在該對話的上下文中連接到任何伺服器。這讓我想,我們還能向你們展示什麼,並將其變成一個 MCP 伺服器。我想我們有一個燈光系統。所以你可以在這裡看到我的提示,我要求 Codex 為這個型號的燈光系統連接這個 MCP 伺服器,我給了它參考文件和我希望它為我的 UI 工作的確切介面。這就是 Codex 代理行為的魔力,我不能要求一個隊友這樣做,但因為任務非常具體,Codex 就是我的隊友。如果你看看它如何完成這個過程,它在某個時候發現需要找到關於命令 8 的新資訊才能繼續前進,於是它去獲取了 GitHub 文件,並在過程中真正地操作和編寫工具,這就是 GPT-5-Codex 的魔力。之後,我又做了一輪,要求 Codex 包含資訊,以便我能理解如何運行它,這就是我的 MCP 伺服器。
回到 VS Code,有趣的是,Xbox 任務,我們稍後會看到。回到這裡,你可以看到你所有的低程式碼和雲端任務都在 VS Code 擴展中。如果我點擊「建構 MCP 伺服器」,這就是我剛才在 Codex Cloud 上向你們展示的任務,在這裡我可以本地應用所有更改,如果我想測試,點擊「應用」,所有帶有這個 MCP 伺服器的更改現在都在本地了。我開始安裝所有依賴項,讓我們來測試一下。但首先,如果我們回到我們的應用程式,讓我們看看我們是否可以用這個 Xbox 控制器控制這個攝影機。它成功了!
[掌聲]
這太棒了。有趣的是,我可以向 Codex 指定哪個按鈕應該做什麼,但它自己認為搖桿是個好主意。現在讓我們進行真正的測試,進入語音模式,看看會發生什麼。我們將試試看 Codex 是否搞定了控制燈光。
Romain: 哈囉。
AI 語音: 你好,我能清楚地聽到你,讓我知道你需要什麼。
Romain: 你在攝影機上看到了什麼?
AI 語音: 我看到你面前有大量的觀眾,一排排的與會者坐著準備好了。房間光線充足,人群充滿了整個空間。
Romain: 你能把燈光照向觀眾嗎?
AI 語音: 我剛剛用一盞明亮的燈照亮了觀眾,讓他們現在被完美地突顯出來。
[掌聲]
Romain: 你現在能向房間裡的每個人打個招呼嗎?
AI 語音: 當然。觀眾席的燈光已經亮起。讓我們歡迎這群了不起的觀眾。你好,在 Fort Mason 的傑出開發者們,我們非常高興你們能來參加這不可思議的一天。
Romain: 太棒了。你現在能用燈光做點有趣的事,並向在直播上收看的人們打個招呼嗎?
AI 語音: 我們已經啟動了有趣的燈光。一些動態的、色彩繽紛的效果正在運動中。對於所有在直播上觀看的人們,感謝你們的加入。這將是一次奇妙的體驗。
Romain: 酷。好了。現在讓我們回到正常狀態。太棒了。我仍然沒有寫任何程式碼來實現這一切。但還有一件事我想向你們展示。最後但同樣重要的是,Sam 提到我們正在推出 Codex SDK,我想以一瞥軟體工程的未來來結束。讓我們回到語音模式。你能請 Codex 顯示一個像電影結尾那樣的演職員表疊加層,但演員是與會者嗎?
AI 語音: 我現在正在用 Codex 運行它。準備好後我會通知你。
Romain: 很好。與此同時,你能開始倒數並為我們所有人拍張照嗎?
[倒數計時與拍照]
[歡呼與掌聲]
當我向語音代理人發送一個任務時,它也將 Codex SDK 作為一個工具添加了進來。這意味著我現在可以即時地重新編程這個應用程式,並根據用戶需求或任何他們的反饋進行調整。所以在這個例子中,當我要求創建一個演職員表疊加層時,它進入了這個 React 的程式碼內部,找到了完成任務所需的東西,然後演職員表就滾動起來了。
我們利用了語音,我們利用了設備,我們利用了一張草圖,我們周圍的設備,並將所有這些都變成了可行的軟體。所有這一切,都不需要手動編寫任何程式碼。把你們最雄心勃勃的想法,最複雜的編碼問題交給 Codex。看看會發生什麼。我想你們會像我們一樣驚訝。每一天。唯一的限制是你的想像力。謝謝!交還給你,Sam。
[歡呼與掌聲]
Sam Altman: 謝謝,Romain。這是我們所見過的軟體創建方式的最大變革。
今天我們涵蓋了很多內容,但顯然模型也非常重要,所以我想分享一些模型的更新。早在八月,我們推出了 GPT-5。我們訓練它在引導代理人和端到端編碼方面表現出色。而 GPT-5 也做到了。像 Cursor、Windsurf 和 Vercel 這樣的領先編碼初創公司正在使用 GPT-5 來改變他們應用程式中軟體的編寫和發布方式。
我們最近發布了 GPT-5 Pro,這是我們有史以來發布的最智慧的模型。今天,我們在 API 中推出了 GPT-5 Pro。它現在對所有開發者開放。希望你們喜歡。
[掌聲]
GPT-5 Pro 將非常適合協助開發者處理金融、法律或醫療保健等領域的真正困難任務,在這些領域你需要高準確性和深度推理。我們還在 API 中發布了一個較小的語音模型 GPT-Realtime-Mini。它是我們兩個月前發布的先進語音模型的一個更小、更便宜的版本——具有相同的語音品質和表現力,價格便宜 70%。我個人認為,語音將成為人們與 AI 互動的主要方式之一,而 GPT-Realtime 是朝著這個現實邁出的一大步。
現在我想轉換話題,談談創作者的新動態。這是一個被熱切要求的功能。我們看到電影製作人、設計師、遊戲開發者、教育工作者在使用 AI 作為創作過程的一部分,取得了令人難以置信的成果。今天,我們在 API 中發布了 Sora 2 的預覽版。
[歡呼與掌聲]
你現在可以存取驅動 Sora 2 驚人影片輸出的相同模型,就在你自己的應用程式中。我們在模型上取得的最大進步之一是它的可控性。你可以給它詳細的指令,它會保持狀態,同時提供感覺風格化、準確、構圖精良的結果。你可以拿 iPhone 的視圖,提示 Sora 將其擴展為一個廣闊的、電影般的寬鏡頭。
我們一直在做的最令人興奮的事情之一是模型如何能將聲音與視覺效果完美結合。不僅僅是語音,還有豐富的音景、環境音效和同步效果,感覺與你所看到的緊密相連。你可以在這個皮划艇影片中聽到。你也可以將現實世界的一部分帶入 Sora 2。例如,你可以拿一張你的狗的靜態照片,給你最愛的狗狗一些新朋友。
Sora 2 也非常適合概念開發。你只需描述一種氛圍或產品,Sora 就會給你一個視覺起點。我們在這裡用它來為一個電子商務廣告生成概念。人們似乎真的很喜歡 Sora 2。自從我們推出以來,它一直在應用商店的頂部。現在,隨著 API 中 Sora 2 的預覽,你可以直接在你的產品中生成同樣高品質的影片,並配有同步的、逼真的聲音。就像我們的其他模態一樣,它是為靈活性而建構的。你可以控制:影片長度、長寬比和解析度,並輕鬆地重新混合影片。
美泰兒(Mattel)是一個很棒的合作夥伴,與我們合作在 API 中測試 Sora 2,以更快地將產品創意變為現實。他們的一位設計師可以從一張草圖開始,將早期概念變成你可以實際看到和分享的東西。讓我們看看這個影片。
[掌聲]
這是一種非常酷的製造玩具的方式。看到想法如何能如此迅速地轉化為可分享的、可行的設計,真是令人難以置信。我們很興奮地期待看到你們將如何在自己的產品中使用 Sora 2。
我們希望今天給了你們一些新的想法去建構。我們希望 OpenAI 能成為這個新建設時代的絕佳平台。事情很快就會變得相當不可思議。我們今天所有的公告都旨在支持這一點:用於在 ChatGPT 中建構原生應用程式的 Apps SDK。AgentKit,讓你可以自信地部署代理人。一個更強大的 Codex,幫助你和你的團隊更快地發布。以及 API 中的新模型,如 GPT-5 Pro、Sora 2 和 Realtime Mini,它們極大地擴展了可能性。
我們正在見證一些重要的事情發生。軟體過去需要數月或數年才能建構。你今天看到了。現在只需要幾分鐘。而用 AI 來建構,你不需要一個龐大的團隊。你不需要大量的基礎設施。你只需要一個好主意。
感謝大家來到這裡。感謝你們的建構。我們的目標是讓 AI 對每個人都有用,沒有你們我們做不到。我們很感激你們與我們一起建構。同時,也非常感謝讓今天成為可能的團隊。今天一整天還有很多活動,所以請享受這些會議,我們稍後再見。非常感謝。
[歡呼與掌聲]