LLM のトークン使用量を減らす方法

文脈の量を適切にし、回答を短くし、暴走するプロンプトを抑えるパターンを紹介します。

The problem

トークン使用量は「必要以上の文脈を毎回送る」ことや、「エージェントのループが追記を続ける」ことで増えます。

トークンが増える“見えない場所”

チャット履歴を毎ターンそのまま再送している
ツール結果が長すぎる
同じ作業を繰り返す自己反省ステップ

コスト分解：tokens → usage

トークンは単なる文字数ではなく、プロンプト、ツール呼び出し、リトライすべてが請求されます。

実例

コンテンツ生成が毎回 20 段落の過去文を入れていた場合、要約とチャンク選択に切り替えることで入力トークンを減らしつつ品質を保てます。

最適化アイデア（速い順→堅い順）

文脈を圧縮：要約、検索、必要な箇所だけを引用する
出力を制御：max output tokens と stop sequences
エージェントにはガードレール：深さ、リトライ、ツール呼び出し回数を上限化

チェックリスト

1 ターンあたりの文脈を減らす
ツール出力を短くする
コード側の上限と監視側の予算をセットで運用する

Next

トークンの支出を見積もる