Strategie di ottimizzazione dei costi AI
Un approccio strutturato: modelli, prompt, tool, routing e monitoring.
The problem
Ottimizzare i costi è engineering: misura → isola lo spreco → aggiungi guardrails.
Perché i costi sembrano imprevedibili
- Prezzi diversi per modello
- Lunghezze prompt/output variabili
- Gli agent amplificano errori con retries e loop
Breakdown: tokens + volume di chiamate
La maggior parte dello spreco nasce da chiamate inutili e prompt troppo lunghi.
Caso reale
Due livelli: limiti per richiesta (tokens + retries) e budget per agent (giorno/settimana).
Ottimizzazione (a livelli)
- Layer 1: igiene dei prompt.
- Layer 2: design del workflow (cache, meno tool calls).
- Layer 3: guardrails (caps, budget, anomalie).
Checklist
- Misura cost per agent
- Cap su retries e timeouts
- Alert + hard stop
