AI 成本优化策略(分层打法)
从模型选择、提示词、工具链到监控告警,系统性降低 AI API 成本。
The problem
成本优化更像工程:先量化、再定位浪费、最后上护栏把波动压下去。
为什么 AI 成本会“看起来不稳定”
- 不同模型的价格不一样
- 提示词长度和输出长度会随请求变化
- agent 通过重试和循环放大错误
成本分解:token 消耗 + 调用量
大多数浪费来自两件事:无效调用、以及过大的 prompt。监控能帮你找到浪费发生的位置。
团队真实做法(常见的两层控制)
很多团队会做两层:每次请求的上限(tokens + retries)和每个 agent 的预算(每天/每周)。这能同时解决“慢性漏费”和“突发爆烧”。
分层优化方案
- 第一层:提示词卫生(更短、更少重复)。
- 第二层:工作流设计(更少工具调用、更好缓存)。
- 第三层:护栏(重试上限、预算、异常检测)。
快速清单
- 按 agent 统计成本
- 加上重试上限和超时
- 预算告警 + 硬停止
Next
优化你的 AI 工作流