Ridurre il costo dell’API OpenAI
Abbassa la spesa controllando token, retry e comportamento dei tuoi agent.
The problem
I costi non aumentano solo perché “usi più AI”. Aumentano quando il workflow brucia token con loop e passaggi inutili.
Cosa fa salire la fattura
- Prompt lunghi ripetuti a ogni tool call
- Retry quando gli strumenti falliscono o vanno in timeout
- Agent che “ragionano” più a lungo del necessario
Decomposizione del costo
Paghi input/output tokens più le chiamate extra generate da strumenti e retry.
Esempio
Un agent di supporto chiama il modello 3–5 volte per messaggio. Con cache e limiti più stretti sui token di output, la spesa cala.
Piano di ottimizzazione (a livelli)
- Quick wins: cap max output, prompt più corto, cache.
- Cambi strutturali: modelli più economici per step semplici e meno passaggi di ragionamento.
- Guardrails: budget per agent + stop dopo un limite di retry.
Checklist
- Traccia tokens e richieste per agent
- Limita retry e tool calls
- Budget e alert prima degli spike
