AI Cost Save
AICostSave

LLM コスト推定

モデルの“見出しトークンレート”だけでなく、請求 tokens と改善回数の総量で比較する。

The problem

同じタスクでも、モデル A と B で必要な呼び出し回数が違うことがあります。結果的に“安く見える”方が高くなることも。

枠組み

  • 1 回あたりの請求 tokens
  • 1 ユーザー操作あたりの呼び出し回数
  • モデルごとの請求トークン総量を比較

なぜルーティングが効くのか

難しい所だけ高性能モデルに任せ、簡単なステップは安価にすることで総量が減ります。

モデル A:1 回。モデル B:2 回。B の見出しレートが安くても、合計では A が勝つ可能性があります。