iT邦幫忙

0

AI coding agent 的下一個介面不是 chat,而是預算表

  • 分享至 

  • xImage
  •  

很多團隊導入 AI coding agent 時,第一個反應還是很直覺:介面是不是更好聊?prompt 要怎麼寫?agent 能不能一次看懂整個 repo?

這些問題都重要,但可能不是最早讓團隊痛的地方。

真正會先撞上來的,通常是帳單。

一個模糊的任務,丟給 agent 跑幾輪。它讀了一堆檔案,試了兩三種方向,叫了高階模型,跑了測試又失敗,回頭重改。最後 PR 也許真的開出來了,但你突然發現,那句「幫我修一下」其實不是一句話。

它是一筆可計算的工程成本。

這就是 AI coding agent 跟過去 autocomplete 最大的差別。以前 Copilot 比較像一個每月付費的鍵盤加速器。它補幾行、解釋幾段、幫你想測試案例,成本感很弱。現在 agent 可以被委派任務,可以在背景工作,可以選不同模型,可以重試,可以跑工具。這代表它不只是更聰明的聊天框,而是進入了工程流程裡。

流程一旦進來,預算也會跟著進來。

Autocomplete 的訂閱心智已經不夠用了

工程師對 AI coding 工具的第一代想像,大多是訂閱式的。

每個月付一筆錢,IDE 裡多一個很會補字的同事。用多用少當然有差,但差異不會直接出現在每一次任務決策裡。你不太會在補一段函式前先想:「這次 autocomplete 值不值得?」

Agent mode 讓這個心智模型變得尷尬。

因為 agent 做的不是「補一下」。它做的是「接一個工作」。這個工作可能包含讀 codebase、規劃、修改、跑測試、修測試、產生 PR、等待 review。中間任何一步都可能消耗更多模型呼叫或工具時間。

這時候,問題不再只是「AI 答得準不準」。

更麻煩的是:「這個任務值不值得讓 agent 跑?要用什麼模型跑?最多讓它試幾次?失敗到什麼程度就停?誰看得懂它花了什麼?」

GitHub Copilot 的 premium requests 和 usage-based billing 訊號之所以值得注意,不是因為大家需要背熟每個方案的額度。那些數字會變,政策也會調整。真正的重點是:產品已經在告訴你,agent 時代的使用量會變成管理介面的一部分。

你不能再假裝每一次 AI 操作都是同樣便宜、同樣輕、同樣不需要記錄。

最貴的不是模型,是壞流程

很多人談 AI 成本,會直接跳到模型價格。

我覺得那反而太表面。

模型當然有成本,但團隊真正浪費的地方,通常不是「用了貴模型」。而是把爛流程原封不動丟給 agent,然後讓 agent 很努力地燒額度。

例如:

  • 任務描述只有「幫我整理一下這個模組」
  • 沒有限制修改範圍
  • 沒有定義完成條件
  • 測試失敗後讓 agent 自己猜下一步
  • 每個問題都預設丟給最強模型
  • 沒有重試上限
  • 沒有人檢查 agent 到底跑了哪些命令

這些不是 AI 問題。這些是團隊本來就不健康的工程習慣,只是以前沒有那麼容易被量化。

人類工程師遇到模糊任務時,會問問題、偷懶、繞路、拉同事討論,或乾脆先做一個自己覺得合理的版本。Agent 不一定會這樣。它可能很勤奮地在錯誤方向上跑很久,而且每一步都看起來像進度。

這是最危險的地方。

一個沒有停止條件的 agent,比一個答錯問題的 chatbot 更麻煩。答錯你可以關掉。沒有停止條件的 agent 會把「不清楚」轉成重試、猜測、修改範圍擴大,最後留下 reviewer 看不懂的 diff。

帳單只是把這件事變得比較刺眼。

每個 agent task 都應該有任務預算

如果團隊真的要把 coding agent 放進日常流程,我會先要求每個 agent 任務都帶一個很樸素的預算欄位。

不是財務部那種預算。是工程控制用的預算。

一個健康的 agent task 至少要講清楚這幾件事:

  • 這次任務最多跑幾輪
  • 預設用哪一級模型
  • 什麼情況可以升級模型
  • 可以修改哪些目錄或檔案
  • 必須跑哪些驗證命令
  • 驗證失敗後最多重試幾次
  • 什麼情況要停下來交給人

這聽起來很無聊,但它比「請用最好的方式完成」可靠太多。

例如,一個任務可以這樣寫:

修復 src/search/ 裡篩選器空狀態顯示錯誤。允許修改搜尋模組與對應測試,不要調整 API contract。先用標準模型處理,最多重試兩輪。完成後跑 pnpm test searchpnpm lint。如果第二輪後仍失敗,停止修改並回報目前假設、失敗測試和建議人工檢查點。

這段文字沒有炫技,但很有用。

它把 agent 從「請你自由發揮」拉回「這是一個有邊界的工程任務」。更重要的是,它讓 reviewer 知道這個任務原本允許 agent 做到哪裡。

沒有這個邊界,reviewer 只能看 diff。可是 diff 只能告訴你它改了什麼,不能告訴你它為什麼花那麼多輪、在哪裡卡住、是不是越權處理了不該碰的問題。

模型路由會變成工程判斷

以前大家談模型選擇,很容易變成跑分比較:哪個模型比較強、哪個 benchmark 比較高、哪個比較會寫 code。

進到團隊流程後,問題應該改成:「這個任務需要多強的模型?」

不是每件事都值得丟給最強模型。

改 README、補型別、整理測試命名、修一個明確的 UI copy bug,跟追一個跨服務 race condition,不應該使用同一種路由策略。前者需要穩定、便宜、可快速驗收。後者可能真的需要更強的推理能力和更多上下文。

如果團隊沒有模型路由規則,最後通常會走向兩種極端。

一種是為了省成本,什麼都用便宜模型,然後在複雜任務上反覆失敗。看起來省了單次成本,實際上把錢花在重試和人工收尾。

另一種是怕麻煩,什麼都用最強模型。這很舒服,但也很快會讓管理層開始問:「這些 agent 任務到底在燒什麼?」

比較務實的做法,是把任務分級。

低風險、局部、可測試的任務,用預設模型。跨模組、需求模糊、需要推理設計取捨的任務,才允許升級。升級時要留下原因,不要讓「我覺得它比較聰明」變成唯一理由。

這不是在跟模型計較幾毛錢。

這是在訓練團隊把 AI 使用當成工程資源,而不是神奇魔法。

Review 的不是只有 diff,還有收據

Agent 完成任務後,很多人會很自然地打開 diff。

這當然必要。但只看 diff 不夠。

Agent PR 應該附上一張收據。至少要讓 reviewer 知道:

  • 它讀了哪些主要檔案
  • 它採用哪個解法,放棄了哪些方向
  • 它跑了哪些命令
  • 哪些驗證通過,哪些沒有跑
  • 它重試了幾輪
  • 是否升級過模型,原因是什麼
  • 有沒有碰到超出任務範圍的假設

這張收據不是行政文件。它是 review 的一部分。

因為 agent 的問題常常不是「這行 code 明顯錯」。更常見的是,它用一個看似合理的方法繞過了真正問題,或是在某個假設上走太遠。沒有過程收據,reviewer 很難知道該從哪裡下手。

這也會改變團隊衡量 agent 成效的方式。

不要只問「這個 PR 有沒有 merge」。也要問:

  • 平均一個 agent 任務跑幾輪?
  • 哪些類型任務最常失敗?
  • 哪些任務常常需要升級模型?
  • 哪些 repo 缺少規則,導致 agent 亂猜?
  • 哪些驗證命令最常缺席?

這些資料累積起來,才會讓團隊真的變會用 agent。

不然你只是把一堆昂貴的嘗試包裝成「AI 導入」。

預算表不是為了管死 agent

講到預算,很容易讓人想到限制、審批、減少使用。

我不是這個意思。

好的預算表不是為了讓 agent 少做事,而是讓它做對的事。沒有預算的團隊,最後反而會更保守。因為大家不知道成本在哪裡,只好靠感覺管理。感覺一旦變差,最簡單的管理方式就是禁止。

有預算、有重試上限、有模型路由、有收據,團隊才敢把更大的任務交出去。

這跟雲端資源很像。不是因為有 cost dashboard,大家就不開機器。剛好相反,是因為看得見成本、設得了 alert、抓得到異常,團隊才敢把工作放到雲上。

AI coding agent 也會走到這一步。

它不會永遠停在「工程師跟聊天框對話」。它會進 issue、進 PR、進 CI、進內部工具,變成可以被觸發、被追蹤、被驗收的工作單位。

到那時候,chat 只是入口之一。

真正重要的介面,是團隊能不能看懂每個 agent 任務花了多少、為什麼花、產出了什麼證據、什麼時候該停。

會用 AI coding agent 的團隊,不會只是最會寫 prompt 的團隊。

會是最早把 agent 工作變成可估算、可中止、可驗收流程的團隊。

Source notes


圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言