iT邦幫忙

2025 iThome 鐵人賽

DAY 24
0
生成式 AI

生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維系列 第 24

Day 24|成本與延遲:錢花在哪、時間卡在哪

  • 分享至 

  • xImage
  •  

為什麼需要談?
AI 成本不只模型費,還有上下文、重試、錯誤返工、人審時間。延遲直接影響用戶體驗與轉化。

白話定義
成本=模型推理費+上下文費+檢索費+人力審核;延遲=檢索+生成+網路+排隊+人審等待。

常見情境

高併發客服(秒回必要)

批次報告(可非同步、以量取勝)

內部工具(秒數容忍度較高)

常見誤解

「省錢就縮模型」→ 可能賠在返工與人審。

「延遲只看模型速度」→ 常卡在檢索與過長上下文。

實用心法

三段式優化:

前置:壓縮上下文(D-N-D 原則)、快取常用片段

中段:小模型做初稿,大模型只接高難或二審

後段:非同步任務排程、批次合併請求

「每答成本」拆帳:算清平均 tokens、重試率、人審時薪,找最大頭優化。

SLA 分層:把需求分成即時/準即時/批次,別用同一標準。

檢核清單

每答平均成本=?重試率=?人審時數=?

延遲 Top-3 瓶頸在檢索/生成/網路哪一段?

有沒有把 FAQ/熱門查詢做快取策略?

小結
先量化,再優化。把大頭問題找出來,動一刀,就有感。


上一篇
Day 23|監測與漂移:上線後才是開始
系列文
生成式 AI 30 天觀念導讀:不寫程式也看懂的實戰思維24
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言