Ridurre il costo dell’API OpenAI

Abbassa la spesa controllando token, retry e comportamento dei tuoi agent.

The problem

I costi non aumentano solo perché “usi più AI”. Aumentano quando il workflow brucia token con loop e passaggi inutili.

Cosa fa salire la fattura

Prompt lunghi ripetuti a ogni tool call
Retry quando gli strumenti falliscono o vanno in timeout
Agent che “ragionano” più a lungo del necessario

Decomposizione del costo

Paghi input/output tokens più le chiamate extra generate da strumenti e retry.

Esempio

Un agent di supporto chiama il modello 3–5 volte per messaggio. Con cache e limiti più stretti sui token di output, la spesa cala.

Piano di ottimizzazione (a livelli)

Quick wins: cap max output, prompt più corto, cache.
Cambi strutturali: modelli più economici per step semplici e meno passaggi di ragionamento.
Guardrails: budget per agent + stop dopo un limite di retry.

Checklist

Traccia tokens e richieste per agent
Limita retry e tool calls
Budget e alert prima degli spike

Next

Stimare il costo AI