LLM のトークン使用量を減らす方法
文脈の量を適切にし、回答を短くし、暴走するプロンプトを抑えるパターンを紹介します。
The problem
トークン使用量は「必要以上の文脈を毎回送る」ことや、「エージェントのループが追記を続ける」ことで増えます。
トークンが増える“見えない場所”
- チャット履歴を毎ターンそのまま再送している
- ツール結果が長すぎる
- 同じ作業を繰り返す自己反省ステップ
コスト分解:tokens → usage
トークンは単なる文字数ではなく、プロンプト、ツール呼び出し、リトライすべてが請求されます。
実例
コンテンツ生成が毎回 20 段落の過去文を入れていた場合、要約とチャンク選択に切り替えることで入力トークンを減らしつつ品質を保てます。
最適化アイデア(速い順→堅い順)
- 文脈を圧縮:要約、検索、必要な箇所だけを引用する
- 出力を制御:max output tokens と stop sequences
- エージェントにはガードレール:深さ、リトライ、ツール呼び出し回数を上限化
チェックリスト
- 1 ターンあたりの文脈を減らす
- ツール出力を短くする
- コード側の上限と監視側の予算をセットで運用する
Next
トークンの支出を見積もる