为什么 AI API 这么贵?(以及如何止住浪费)
AI API 成本上涨通常来自 token 浪费、重试/工具链放大,以及 agent 循环。学会定位真实成本驱动,并用护栏防止暴走。
The problem
大多数团队并不是“突然用得更多”。而是当工具失败或循环无法收敛时,你的工作流开始发送更多无效 tokens,并触发更多调用次数。
账单持续变贵的 3 个原因
- token 浪费:上下文太长、重复指令、工具输出过于冗长
- 调用次数放大:重试(retries)、回退(fallbacks)和工具链会乘以请求量
- 循环机制:agent 没有收敛信号时,会继续“优化又优化”
真正决定成本的等式
你的成本主要来自所有模型调用中 计费 tokens 的总量,再加上不确定性下工作流触发的额外调用。 所以降本的核心是:减少 tokens、减少调用次数,或同时做到两者。
一个“看起来很随机”的真实场景
支持型 agent 会先调用工具得到部分结果,然后因为失败而重复同一段步骤。平均每次调用的 tokens 可能没太大变化,但重试频率会让你每个月都出现“突刺”。
分层修复(快赢→深挖→护栏)
- 快速:限制 max output tokens、缩短 system prompt、截断工具输出
- 深度:把简单步骤路由到更便宜的模型,并在合适的位置加入缓存
- 护栏:给 agent 设置预算、重试上限,以及“做完就停”的停止规则
快速检查清单
- 按 agent/run 追踪 tokens 和 call volume
- 给 retries 和 tool calls 设置上限
- 在花费突刺前就先配告警
Next
估算你的 AI 使用成本