在生產環境的 AI 應用中,Cache Hit Rate(快取命中率)已成為與系統可用性同等重要的核心指標,直接影響成本、速度與 Token 配額三件事。
什麼是 Cache Hit Rate?
當 API 呼叫模型時,若能直接從快取讀取「已計算過的前綴(Prefix)」,就算一次命中。計算公式:Cache Hit Rate = 快取讀取 Token 數 / (快取讀取 + 快取寫入 + 一般輸入 Token 數)
命中率越高,重複運算越少,效率越好。
為什麼重要?三大直接影響
常見的快取破壞行為
要維持高命中率,必須避免這些操作:
健康標準
命中率 / 狀態
≥ 90% / 理想健康
70–90% / 可接受,但需關注
<70% / 需重新檢視 Prompt 結構與快取設定
優化 Cache Hit Rate 是 AI 效能優化的第一步,也是成本控制最直接有效的槓桿。
感謝閱讀,為了方便日後系統化檢索,我將技術筆記同步收錄在個人知識基地愷的大冒險 Kai's Adventure