Réduire l’usage de tokens des LLM
Moins de tokens via moins de contexte, des réponses plus courtes et des garde-fous contre les boucles.
The problem
Les tokens explosent quand l’app envoie plus de contexte que nécessaire ou quand un agent empile des étapes en boucle.
Où les tokens se multiplient
- Historique complet renvoyé à chaque tour
- Résultats d’outils trop verbeux
- Étapes de “self-reflection” qui répètent le même travail
Décomposition : tokens → usage
Chaque prompt, chaque appel d’outil et chaque retry génèrent des tokens facturés.
Exemple
Un générateur de contenu envoie 20 paragraphes à chaque draft. En passant à des résumés + sélection de chunks, vous réduisez les tokens d’entrée.
Idées d’optimisation
- Compresser le contexte : résumés, retrieval, citations ciblées.
- Contrôler les sorties : max output tokens + stop sequences.
- Pour les agents : plafonner profondeur, retries, appels d’outils.
Checklist
- Envoyer moins de contexte
- Raccourcir les outputs d’outils
- Limites côté code + budgets côté monitoring
