AI Cost Save
AICostSave

LLM のトークン使用量を減らす方法

文脈の量を適切にし、回答を短くし、暴走するプロンプトを抑えるパターンを紹介します。

The problem

トークン使用量は「必要以上の文脈を毎回送る」ことや、「エージェントのループが追記を続ける」ことで増えます。

トークンが増える“見えない場所”

  • チャット履歴を毎ターンそのまま再送している
  • ツール結果が長すぎる
  • 同じ作業を繰り返す自己反省ステップ

コスト分解:tokens → usage

トークンは単なる文字数ではなく、プロンプト、ツール呼び出し、リトライすべてが請求されます。

実例

コンテンツ生成が毎回 20 段落の過去文を入れていた場合、要約とチャンク選択に切り替えることで入力トークンを減らしつつ品質を保てます。

最適化アイデア(速い順→堅い順)

  • 文脈を圧縮:要約、検索、必要な箇所だけを引用する
  • 出力を制御:max output tokens と stop sequences
  • エージェントにはガードレール:深さ、リトライ、ツール呼び出し回数を上限化

チェックリスト

  • 1 ターンあたりの文脈を減らす
  • ツール出力を短くする
  • コード側の上限と監視側の予算をセットで運用する