为什么 AI API 这么贵？（以及如何止住浪费）

AI API 成本上涨通常来自 token 浪费、重试/工具链放大，以及 agent 循环。学会定位真实成本驱动，并用护栏防止暴走。

The problem

大多数团队并不是“突然用得更多”。而是当工具失败或循环无法收敛时，你的工作流开始发送更多无效 tokens，并触发更多调用次数。

账单持续变贵的 3 个原因

token 浪费：上下文太长、重复指令、工具输出过于冗长
调用次数放大：重试（retries）、回退（fallbacks）和工具链会乘以请求量
循环机制：agent 没有收敛信号时，会继续“优化又优化”

真正决定成本的等式

你的成本主要来自所有模型调用中 计费 tokens 的总量，再加上不确定性下工作流触发的额外调用。所以降本的核心是：减少 tokens、减少调用次数，或同时做到两者。

一个“看起来很随机”的真实场景

支持型 agent 会先调用工具得到部分结果，然后因为失败而重复同一段步骤。平均每次调用的 tokens 可能没太大变化，但重试频率会让你每个月都出现“突刺”。

分层修复（快赢→深挖→护栏）

快速：限制 max output tokens、缩短 system prompt、截断工具输出
深度：把简单步骤路由到更便宜的模型，并在合适的位置加入缓存
护栏：给 agent 设置预算、重试上限，以及“做完就停”的停止规则

快速检查清单

按 agent/run 追踪 tokens 和 call volume
给 retries 和 tool calls 设置上限
在花费突刺前就先配告警

Next

估算你的 AI 使用成本