Section 2 — Architecture & Automatisation

Gestion des tokens

Capsule 6 min Type conceptuelle Modalité e-learning Niveau intermédiaire

Objectif opérationnel

À l'issue de cette leçon, le stagiaire comprend ce qu'est un token, lit les compteurs de consommation, et applique les bonnes pratiques pour optimiser ses conversations.

§ 01

Définition

Un token est l'unité de découpage que les modèles de langage utilisent pour traiter le texte. Ce n'est ni un mot ni un caractère mais quelque chose entre les deux. En français, un token correspond en moyenne à environ quatre caractères, soit un peu moins d'un mot. Les mots courants tiennent en un token ; les mots rares ou techniques en plusieurs.

Pourquoi ce découpage importe-t-il ? Parce que les modèles facturent au token (côté API) et limitent leurs fenêtres de contexte en nombre de tokens. Connaître l'ordre de grandeur change la façon dont on rédige ses prompts.

§ 02

Les compteurs

Trois compteurs distincts, à ne pas confondre :

Tokens d'entrée (input). Tout ce que vous envoyez à Claude : le prompt, l'historique de la conversation, les pièces jointes traitées en texte. C'est généralement la part la plus volumineuse.

Tokens de sortie (output). Ce que Claude produit en réponse. Plus une réponse est longue, plus elle coûte.

Tokens en cache. Si vous réutilisez un contexte volumineux (un Project bien rempli, un long CLAUDE.md), Anthropic peut le mettre en cache pour réduire le coût des appels suivants. Le cache est appliqué automatiquement sur l'API ; sur claude.ai, il est transparent.

§ 03

Limites par modèle et par plan

Sur claude.ai, les limites varient selon le plan : Free a un quota mensuel modéré, Pro un quota beaucoup plus large, Max 5x et Max 20x des quotas multiplicateurs (la dénomination indique le multiplicateur). Team et Enterprise ont des quotas par siège, mutualisés à l'échelle de l'organisation.

Sur l'API (pour les développeurs et intégrateurs), la facturation est au token consommé, avec un tarif différent par modèle (Haiku le moins cher, Opus le plus cher). Les limites de débit s'expriment en requêtes par minute et tokens par minute.

Les valeurs précises évoluent. Vérifiez sur la page de tarification d'Anthropic au moment de planifier un usage intensif.

§ 04

Bonnes pratiques d'optimisation

Soyez précis dans vos prompts. Un prompt clair et structuré coûte moins en allers-retours d'éclaircissement.

Découpez les longues conversations. Plutôt qu'une conversation de cinquante échanges qui finit par saturer la fenêtre, démarrez-en une nouvelle pour chaque grande étape, en collant un résumé des conclusions précédentes.

Compressez les pièces jointes lourdes. Pour un PDF de cinq cents pages dont seules trente sont pertinentes, extrayez les trente avant de joindre. Le surcoût en setup est largement amorti par l'économie en tokens.

Choisissez le bon modèle. Une tâche simple traitée par Opus est un gaspillage. Haiku la fait pour un dixième du coût, parfois mieux.

Exercice — réflexion

Estimer votre consommation type

Reprenez une conversation Claude récente d'une intensité représentative de votre usage. Estimez à la louche la consommation en tokens : combien de mots dans vos prompts, combien dans les réponses, combien dans les pièces jointes (si applicable). Multipliez par votre fréquence hebdomadaire pour avoir un ordre de grandeur de consommation mensuelle. Cela vous indiquera si votre plan est dimensionné correctement.

Sources officielles consultées

docs.claude.com documentation produit, chemin précis à vérifier au moment de la consultation
anthropic.com/news annonces et bonnes pratiques publiées par Anthropic
anthropic.com/pricing tarification API et plans claude.ai, à vérifier au moment de la consultation

Vous savez gérer votre consommation de tokens ?