7 月 1 日消息,本文基於 Crazyrouter 的 OpenAI-compatible 介面,對 claude-sonnet-5 與 claude-sonnet-4-6 進行了一組實際 API 調用測試。
測試結果顯示,兩款模型均可正常調用,24 次請求中未出現錯誤。不過在本輪測試中,Claude Sonnet 5 的延遲明顯低於 Claude Sonnet 4.6,且波動更小,更適合作為生產環境的預設候選模型。
本次測試使用的介面如下:
POST https://crazyrouter.com/v1/chat/completions
測試模型包括:
claude-sonnet-5
claude-sonnet-4-6
測試任務共分為 6 類:
每類任務中,每個模型各執行 2 次,總計 24 個請求。
| 模型 | 請求數 | 成功數 | 錯誤數 | 成功率 | 平均延遲 | 中位延遲 | 最快 | 最慢 | 近似 p95 |
|---|---|---|---|---|---|---|---|---|---|
| claude-sonnet-5 | 12 | 12 | 0 | 100% | 13.10s | 12.63s | 10.32s | 18.88s | 14.64s |
| claude-sonnet-4-6 | 12 | 12 | 0 | 100% | 46.14s | 42.91s | 12.15s | 105.29s | 78.76s |
從數據來看,Sonnet 5 的 12 次請求基本落在 10 至 19 秒之間;Sonnet 4.6 則波動較大,最慢一次達到 105.29 秒。
對於聊天機器人、網頁產品或即時互動型應用而言,40 秒以上的延遲已經會明顯影響使用者體驗。
| 任務 | Sonnet 5 平均延遲 | Sonnet 4.6 平均延遲 |
|---|---|---|
| 工程推理 | 14.60s | 29.99s |
| 程式碼除錯 | 12.56s | 77.11s |
| 嚴格 JSON | 13.35s | 72.04s |
| 中文寫作 | 14.25s | 37.12s |
| 長文本總結 | 10.86s | 17.68s |
| 產品判斷 | 12.96s | 42.91s |
其中,程式碼除錯與嚴格 JSON 輸出兩類任務差距最為明顯。
在程式碼除錯任務中,兩個模型都能指出 rate limiter 的核心問題,包括 self.calls 缺少併發保護、檢查與寫入不是原子操作、sleep 後未重新檢查窗口等。但 Sonnet 5 的回覆更直接,Sonnet 4.6 則耗時更長。
在 JSON 輸出任務中,兩款模型都出現了一定程度的不穩定。即使 system prompt 已要求「只返回有效 JSON」,Sonnet 5 曾先輸出解釋文字,Sonnet 4.6 則將 JSON 包在 Markdown code fence 中。
在工程推理任務中,Sonnet 5 更傾向於給出工程決策式回答,重點包括 p95 延遲、錯誤率、成本、上下文窗口與 anti-flapping 機制。
Sonnet 4.6 內容同樣完整,但回答更長、更發散,適合作為寫作素材,但不一定適合即時產品場景。
本輪測試再次說明,結構化輸出不能完全依賴 prompt。
如果業務強依賴 JSON,生產環境應加入:
也就是說,模型能力提升不代表可以省掉工程防護。
本次測試也觀察到一個典型情況:某些請求雖然返回 HTTP 200,但可見輸出內容可能為空,原因可能是 token 預算被 reasoning tokens 消耗。
因此,開發者不應只檢查 HTTP 狀態碼,還應檢查:
finish_reason
如果要將 Sonnet 5 用於生產環境,建議不要直接全量替換 Sonnet 4.6,而是採用灰度方案:
本輪實測結果可概括為:
claude-sonnet-5 與 claude-sonnet-4-6 均可正常調用總體來看,Sonnet 5 在本次測試中展現出更好的延遲穩定性。但對於生產環境而言,新模型是否值得切換,仍應以真實業務 prompt、延遲分布、格式穩定性與回滾策略為準。
模型發布是新聞,模型可用性才是工程事實。