別讓使用者等到花兒都謝了 - AI 速度的真相 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 20

AI & Data

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列第 20 篇

別讓使用者等到花兒都謝了 - AI 速度的真相

17th鐵人賽

tony123344333

團隊組隊最大障礙：隊名

2025-10-04 22:31:20

150 瀏覽

分享至

昨天我們聊到攻擊者如何用各種巧妙的手法撬開護欄，從多輪對話的溫水煮青蛙、隱形文字的魔法，到系統級的架構攻擊。那場永無止境的軍備競賽提醒我們：安全性是 AI 系統的根基。

但今天我們換個角度：聊聊 AI 的回應品質。

還記得文章開頭我們說過的「賭徒心態」嗎？不斷按下重試按鈕，祈禱下一次能得到更好的結果。經過這些天的修練，你已經學會了提示工程、情境管理、防幻覺技術，從賭徒進化成了煉金師。

今天要聊一個常被忽略的問題：當你的 AI 助手思考了 30 秒才給出答案，這算是深思熟慮，還是效率低落？

速度也是品質的一部分

想像你走進一家咖啡廳，點了一杯拿鐵。如果咖啡師花 3 分鐘做出完美的拉花，你會覺得很棒；但如果他花了 30 分鐘，即使味道再好，你可能也已經不耐煩地離開了。
AI 的回應速度也是如此。2024-2025 年的研究發現，使用者對 AI 的耐心遠比我們想像的少：

聊天機器人：超過 200 毫秒 (0.2 秒) 就會感覺「卡頓」
程式碼補全：超過 500 毫秒就會打斷思路
文件摘要：可以接受幾秒鐘，但超過 10 秒就開始懷疑

這不是使用者太挑剔，而是人類大腦的特性。我們的視覺反應時間約 200 毫秒，超過這個時間就會感覺到「延遲」。就像玩遊戲時的輸入延遲，即使只有半秒鐘，也會讓體驗大打折扣。

兩個關鍵計時器：TTFT 與 TPS

評估 AI 回應速度，有兩個關鍵指標，就像評估一台車的性能：
TTFT (Time to First Token)：
這是「從你按下 Enter 鍵，到看見 AI 開始打字」的時間。就像餐廳的上菜速度——客人點完餐後多快能看到第一道菜。

你可能會想：「為什麼有些模型這麼慢？」因為像 OpenAI o1 這樣的「推理模型」，在回答前會先進行大量內部思考。就像解數學題，快速給答案和展示完整解題步驟，需要的時間完全不同。

如果把 AI 回應比作開車，TTFT 就是起步加速時間。聊天應用需要「跑車」(低 TTFT)，而複雜推理任務可以接受「大卡車」(高 TTFT，但載重量大)。

TPS (Tokens Per Second)：
這是「AI 每秒能生成多少個字」。人類閱讀速度約每分鐘 200-300 字，對應大約 15-20 TPS。如果 AI 的速度比你讀得還慢，就會感覺「卡頓」。

TPS 就是平均時速。起步再快，如果速度跟不上，整趟旅程還是會很慢。

為什麼突然在意速度？

你可能會問：「前面 19 天都在講品質、安全、架構，為什麼現在才談速度？」
因為速度是把 AI 從實驗室帶到真實世界的關鍵。
一個回答準確但需要等 60 秒的客服機器人，還不如稍微不那麼完美但 2 秒就回應的版本。使用者不會等你慢慢思考——他們會直接關掉視窗。
這就像餐廳一樣：即使你的料理是米其林等級，如果客人要等一小時才上菜，生意也做不下去。速度不只是技術指標，更是使用者體驗的核心。

這不是要你變成「速度狂魔」，而是培養對使用者體驗的敏感度。

明天，我們將深入探討那些讓 AI 「既快又好」的煉金秘技，讓 AI 成為真正好用的助手。