LLM コスト推定
モデルの“見出しトークンレート”だけでなく、請求 tokens と改善回数の総量で比較する。
The problem
同じタスクでも、モデル A と B で必要な呼び出し回数が違うことがあります。結果的に“安く見える”方が高くなることも。
枠組み
- 1 回あたりの請求 tokens
- 1 ユーザー操作あたりの呼び出し回数
- モデルごとの請求トークン総量を比較
なぜルーティングが効くのか
難しい所だけ高性能モデルに任せ、簡単なステップは安価にすることで総量が減ります。
例
モデル A:1 回。モデル B:2 回。B の見出しレートが安くても、合計では A が勝つ可能性があります。
