Baisser le coût de GPT
Réduisez le coût GPT en contrôlant max tokens, le choix de modèle et en évitant les pics.
The problem
Les pics viennent souvent de sorties trop longues et de boucles de révision qui “continuent”.
Où se cache la dépense GPT
- Sorties longues (draft → revise)
- Demandes répétées après des échecs d’outils
- Modèles premium pour des étapes simples
Ce qu’il faut mesurer
Suivez (1) les tokens facturés par appel et (2) le nombre d’appels déclenchés par action utilisateur.
Exemple
Une page produit génère un draft puis 2 passes de réécriture. En limitant les tokens de sortie et en réduisant le nombre de passes, vous coupez la facture.
Plan d’optimisation
- Choisir le bon modèle à chaque étape
- Plafonner retries et max output tokens
- Stopper plus tôt quand la qualité est suffisante
Checklist
- max tokens + stop sequences
- Moins de passes de révision
- Gardes budgets pour les agents
