Lexique IA · AIMC

Le vocabulaire IA bouge vite et tout le monde le balance sans définition. Voilà les onze mots qu'on croise tous les jours en 2026 quand on bosse en solo avec l'IA.

Agent CLI Distillation Frontier Inference Modèle Openweight Quantization SOTA Tokens Training

Agent

Modèle qui agit, pas seulement qui répond. Il a accès à des outils — terminal, navigateur, fichiers, API — et enchaîne des actions tout seul pour atteindre un objectif donné en langage naturel.

"Voici la commande à taper" → assistant. "J'ai ouvert le terminal, tapé la commande, lu le résultat, et corrigé le bug" → agent. Claude Code et Codex sont des agents. ChatGPT en mode chat simple, non.

CLI

Command-Line Interface, ce qui se tape dans un terminal — opposé d'une interface graphique. claude, codex, gh pr create sont des CLI. La majorité des outils IA pour devs en 2026 sont des CLI : plus rapide, scriptable, utilisable en SSH ou sur un serveur sans écran.

Distillation

Prendre un gros modèle et l'utiliser pour entraîner un plus petit qui imite ses réponses. Le petit perd un peu de qualité, gagne énormément en vitesse et en taille.

Gemma 4 est distillé depuis Gemini 3 ; Qwen 3.6 Coder depuis Qwen Max. C'est ce qui rend l'IA locale viable sur un MacBook ou une box à 1500 €.

Frontier

Les modèles frontier sont ceux qui repoussent les limites — les plus capables du moment. En 2026 : Claude Opus 4.7, GPT-5.5 Pro, Gemini 3 Ultra. Top tier, propriétaire, cher (50-200 €/mois en abonnement, plusieurs euros par grosse requête en API). Opposé d'un modèle openweight ou local.

Inference

Faire tourner un modèle déjà entraîné pour générer une réponse. Différent du training : pas de modification des poids, juste un calcul forward. Quand tu poses une question à Claude, c'est de l'inference. Le coût d'inference, c'est ce qui apparaît sur ta facture API ou qui chauffe ton GPU.

Modèle

Un fichier — souvent plusieurs gigas, parfois plusieurs centaines — qui contient les poids entraînés d'un réseau de neurones. Ce qu'on charge en mémoire pour faire de l'inference.

Quand on dit "Claude Opus 4.7", on parle du modèle ; quand on dit "Claude Code", on parle du CLI/produit qui utilise ce modèle.

Openweight

Modèle dont les poids (le fichier .safetensors ou .gguf) sont distribués publiquement. Tu peux le télécharger, le faire tourner localement, le fine-tuner. Llama, Qwen, Gemma, Mistral, DeepSeek = openweight.

À ne pas confondre avec open source stricto sensu : les datasets et le code d'entraînement ne sont pas toujours fournis. Mais "openweight" est le terme qui s'est imposé.

Quantization

Réduire la précision des poids d'un modèle (FP16 → INT8 → INT4 → INT2) pour le faire tenir en mémoire et tourner plus vite. Tu perds un peu de qualité, tu gagnes énormément en vitesse et en RAM.

Concret : sans quantization, Qwen 3.6 Coder en local demanderait ~70 Go de RAM. Quantizé en Q4_K_M, ~20 Go — ça passe sur un MacBook 32 Go.

SOTA

State-of-the-art. L'état de l'art, le meilleur niveau atteint à un moment donné sur un benchmark ou une tâche. "SOTA 2026 pour le code" = le modèle le plus fort en code en 2026. Souvent une façon de dire "cherche pas, prends le meilleur" — et ça change tous les trois mois. Voir la page SOTA.

Tokens

Les unités que les modèles lisent et génèrent. Pas des mots, plutôt des sous-mots. "intelligent" peut être 1 token, "intelligence" 2, un mot rare 5. Compte ~1 token = 0,75 mot en français.

Les API facturent au token (input et output séparés), et les fenêtres de contexte se mesurent en tokens (200 k pour Claude Sonnet, 1 M pour Opus 4.7 1M, 2 M pour Gemini 3).

Training

Entraîner un modèle, c'est lui montrer des milliards d'exemples pour qu'il ajuste ses poids et apprenne à prédire la suite d'un texte. Coût : des dizaines à centaines de millions d'euros pour un modèle frontier.

Pour un solo, training = jamais. Sauf fine-tuning à petite échelle (LoRA / QLoRA sur quelques milliers d'exemples), possible sur une 4090 ou via cloud à ~10 € la session — mais rarement utile dans la vraie vie.