LLM コスト推定

モデルの“見出しトークンレート”だけでなく、請求 tokens と改善回数の総量で比較する。

The problem

同じタスクでも、モデル A と B で必要な呼び出し回数が違うことがあります。結果的に“安く見える”方が高くなることも。

枠組み

1 回あたりの請求 tokens
1 ユーザー操作あたりの呼び出し回数
モデルごとの請求トークン総量を比較

なぜルーティングが効くのか

難しい所だけ高性能モデルに任せ、簡単なステップは安価にすることで総量が減ります。

例

モデル A：1 回。モデル B：2 回。B の見出しレートが安くても、合計では A が勝つ可能性があります。

Next

GPT と Claude を比較する