Strategie di ottimizzazione dei costi AI

Un approccio strutturato: modelli, prompt, tool, routing e monitoring.

The problem

Ottimizzare i costi è engineering: misura → isola lo spreco → aggiungi guardrails.

Perché i costi sembrano imprevedibili

Prezzi diversi per modello
Lunghezze prompt/output variabili
Gli agent amplificano errori con retries e loop

Breakdown: tokens + volume di chiamate

La maggior parte dello spreco nasce da chiamate inutili e prompt troppo lunghi.

Caso reale

Due livelli: limiti per richiesta (tokens + retries) e budget per agent (giorno/settimana).

Ottimizzazione (a livelli)

Layer 1: igiene dei prompt.
Layer 2: design del workflow (cache, meno tool calls).
Layer 3: guardrails (caps, budget, anomalie).

Checklist

Misura cost per agent
Cap su retries e timeouts
Alert + hard stop

Next

Ottimizzare il workflow