LLM Cost Estimator
Vergleicht Modelle mit total gebillten Tokens und Refinement-Pässen – nicht nur „pro Token“-Raten.
The problem
Zwei Modelle können unterschiedliche Call-Anzahlen brauchen. Dadurch kann das scheinbar günstigere Rate-Modell teurer werden.
Framework
- gebillte Tokens pro Call
- Calls pro Nutzeraktion
- total gebillte Tokens pro Modell
Routing
Günstige Modelle für einfache Schritte, Premium nur für finalen Output.
Beispiel
Modell A: 1 Call. Modell B: 2 Calls. Selbst mit besseren Raten kann A gewinnen.
