AI Cost Save
AICostSave

如何降低 LLM 的 Token 使用量

用更少上下文、更短输出和可控的流程,减少 token 消耗并避免提示词失控。

The problem

当你的应用每轮都发送过多上下文,或者 agent 在循环里不断追加文本,token 使用量就会涨得很快。

Tokens 在“看不见的地方”翻倍

  • 每一轮都把完整聊天历史重新发一遍
  • 工具返回内容太长(verbose)
  • 自我反省步骤重复了同一件事

成本分解:tokens → usage

token 不只是“字数”。每次 prompt、每次工具调用、每次重试都会产生计费 tokens。

例子

内容生成如果每次都塞入 20 段旧内容,就会吞掉输入 tokens。改成摘要 + 选择相关片段(chunk selection)能在不明显降质的情况下省钱。

优化思路(按优先级)

  • 压缩上下文:摘要、检索、只引用必要片段。
  • 控制输出:设置 max output tokens 和 stop 序列。
  • 给 agent 加护栏:限制深度、重试次数与工具调用次数。

快速清单

  • 每轮少发上下文
  • 缩短工具输出
  • 代码侧上限 + 监控侧预算两手都要