Réduire l’usage de tokens des LLM

Moins de tokens via moins de contexte, des réponses plus courtes et des garde-fous contre les boucles.

The problem

Les tokens explosent quand l’app envoie plus de contexte que nécessaire ou quand un agent empile des étapes en boucle.

Où les tokens se multiplient

Historique complet renvoyé à chaque tour
Résultats d’outils trop verbeux
Étapes de “self-reflection” qui répètent le même travail

Décomposition : tokens → usage

Chaque prompt, chaque appel d’outil et chaque retry génèrent des tokens facturés.

Exemple

Un générateur de contenu envoie 20 paragraphes à chaque draft. En passant à des résumés + sélection de chunks, vous réduisez les tokens d’entrée.

Idées d’optimisation

Compresser le contexte : résumés, retrieval, citations ciblées.
Contrôler les sorties : max output tokens + stop sequences.
Pour les agents : plafonner profondeur, retries, appels d’outils.

Checklist

Envoyer moins de contexte
Raccourcir les outputs d’outils
Limites côté code + budgets côté monitoring

Next

Estimer la dépense tokens