Tu veux vivre de l'IA en solo mais 200€/mois sur Claude Pro Max c'est pas dans ton budget de démarrage. C'est légitime. Voilà comment t'équiper d'un setup IA agentique complet pour 0€/mois, et la roadmap pour upgrader quand tu signes ton premier client.
Pour comprendre la vue d'ensemble (modèles propriétaires vs open, pourquoi Claude Code coûte cher), lis aussi le Setup IA frontier.
Modèle vs CLI : la distinction qu'il faut comprendre
Deux choses très différentes :
Le modèle, c'est le LLM — le "cerveau". Claude Opus 4.7, GPT 5.5, Kimi 2.6, Qwen 3.6, Gemma 4. Concrètement, c'est un fichier de plusieurs gigas (les poids du réseau de neurones) servi par un provider — Anthropic, OpenAI, ou ta machine si t'as les specs.
La CLI, c'est l'outil que tu lances dans ton terminal — l'interface qui parle au modèle. CLI = Command Line Interface. Pour les non-devs : c'est un programme qui tourne dans une fenêtre noire avec du texte (Terminal sur macOS, PowerShell sur Windows, n'importe quel terminal sur Linux). Tu tapes une commande, le programme fait quelque chose.
Une CLI IA agentique, c'est un programme qui :
- Reçoit ta question en langage naturel
- Demande au modèle quoi faire
- Lit / écrit / modifie tes fichiers
- Lance des commandes pour toi (
git,npm,bun, etc.) - Itère jusqu'à ce que la tâche soit faite
Une même CLI peut parler à plusieurs modèles différents. Et un même modèle peut être utilisé par plusieurs CLIs.
La CLI gratuite : OpenCode
OpenCode est une CLI open source qui ne se marie pas à un provider unique. Tu lui dis "parle à tel endpoint API" et il discute avec n'importe quoi — Ollama (local), n'importe quelle API compatible OpenAI.
C'est le pivot du setup gratuit. Combinée à Ollama, tu obtiens une stack agentique 100% locale, sans clé API, sans compte cloud, sans rate limit.
Pour les CLIs propriétaires (Claude Code, Codex) ou OpenCode branché à un modèle frontier via API, voir Setup IA frontier.
Les modèles open weights tournables en local
Deux modèles seulement, mais les deux qui valent vraiment le coup en 2026 :
| Modèle | Provider | Tailles | Force |
|---|---|---|---|
| Qwen 3.6 Coder | Alibaba | 7B, 14B, 32B | Le meilleur open pour le code, point. |
| Gemma 4 | 4B, 12B, 27B | Général, propre, bon ratio perf / poids |
Les autres (Llama, DeepSeek Coder V2, Mistral...) sont soit en retard, soit trop gros pour tourner localement, soit moins bons que Qwen sur le code. Reste sur ces deux et tu seras pas déçu.
Liens vers les pages modèles :
Setup gratuit sur Mac
L'avantage Apple Silicon : mémoire unifiée. Le GPU partage la RAM avec le CPU, donc tes 32 Go de RAM sont aussi 32 Go de "VRAM". Pas besoin d'une carte graphique séparée.
Specs minimum (Mac)
| RAM | Modèles tournables (Q4) | Use case |
|---|---|---|
| 8 Go | 3B max → frustrant | Apprentissage seulement |
| 16 Go | 7B confort | Démarrage solo réaliste |
| 32 Go | 14B confort, 32B serré | Production solo crédible |
| 64 Go+ | 32B confort, 70B Q3 | Comparable à du SaaS payant |
Apple Silicon obligatoire (M1 ou +). Les Intel Mac, oublie — pas de Metal acceleration utile pour ces tailles.
Les Mac Mini M2/M3 16 Go neufs (~700€) ou M1/M2 d'occasion (~500€) sont les machines IA solo les moins chères du marché.
Étape 1 — Install Ollama
Ollama est le runtime qui sert les modèles open en local.
brew install ollama
ollama serve
Laisse ollama serve tourner dans un terminal. Sur macOS tu peux aussi l'installer avec l'app native depuis ollama.com/download.
Étape 2 — Pull un modèle adapté à ta RAM
# 16 Go RAM
ollama pull qwen2.5-coder:7b
# 32 Go RAM
ollama pull qwen2.5-coder:14b
# 64 Go+ RAM
ollama pull qwen2.5-coder:32b
Test rapide :
ollama run qwen2.5-coder:14b "écris-moi une fonction TypeScript qui debounce"
Étape 3 — Install OpenCode
bun install -g opencode-ai
Doc officielle : opencode.ai/docs.
Étape 4 — Lancer OpenCode sur ton repo
cd ~/mon-projet
opencode
Au premier lancement, OpenCode te demande quel provider utiliser. Choisis Ollama, indique le modèle (qwen2.5-coder:14b). Tu codes en agentic pour 0€/mois.
Setup gratuit sur PC NVIDIA (Linux ou Windows)
Specs minimum (NVIDIA)
| VRAM | Carte | Modèles Q4 | Use case |
|---|---|---|---|
| 8 Go | RTX 3060 8 Go, 4060 | 7B serré | Découverte |
| 12 Go | RTX 3060 12 Go, 4070 | 7B confort, 13B serré | L'entry sweet spot |
| 16 Go | RTX 4060 Ti 16 Go, 4070 Ti Super | 14B confort | Le ratio prix/perf parfait |
| 24 Go | RTX 3090 / 4090 | 32B confort, 70B Q3 | Si tu sais que tu vas vivre dessus |
Une RTX 3090 d'occasion en 2026 = ~600€. C'est le seul investissement matériel qui se justifie pour un solo IA.
Côté RAM système : 16 Go minimum, 32 Go conseillé.
Étape 1 — Install Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh
Sur Windows : installeur officiel sur ollama.com/download.
Étape 2 — Vérifier ton GPU
nvidia-smi
Tu dois voir ta carte, le driver, la VRAM dispo. Si la commande n'existe pas, installe les drivers NVIDIA propriétaires + CUDA Toolkit.
Étapes 3 / 4
Identiques au setup Mac (les commandes ollama pull et opencode sont les mêmes).
Quel setup gratuit pour qui
- T'as un Mac M2/M3 avec 16 Go → Ollama + Qwen 3.6 7B Coder. Démarrage réaliste.
- T'as un Mac M2/M3 avec 32 Go+ → Ollama + Qwen 3.6 14B Coder. Vitesse correcte, latence quasi nulle.
- T'as un PC avec RTX 3090 → Ollama + Qwen 3.6 32B. La meilleure expérience open weights consumer en 2026.
- T'as ni Mac correct ni GPU → tu peux pas faire de "vraiment gratuit" agentique. Soit tu chopes une RTX 3090 d'occasion (~600€, le bon investissement matos), soit tu paies un cloud (voir Setup IA frontier).
Les pièges à éviter
- Modèle trop petit. En dessous de 7B, l'agentic loop pète tous les 3 prompts. 7B en Q4 minimum.
- Quantification trop agressive. Q2 et Q3 perdent en qualité visible. Reste sur Q4_K_M.
- CPU only. Tu peux tourner sans GPU mais à 5 tokens/s, t'attends 3 min pour une réponse. Inutilisable en agentic.
- Croire qu'un local 14B = Claude Opus. Non. C'est ~70-80% sur les tâches simples, ça décroche sur le reasoning complexe et les longs contextes. Utilise-le pour les tâches simples, garde Claude/GPT pour les vraies difficultés (voir Setup IA frontier).
Action
Là, maintenant, sur ton Mac :
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
bun install -g opencode-ai
cd ~/un-vieux-projet
opencode
Tu lances ta première session agentique gratos. Si ça plante, viens me dire au Discord.
Suite logique : Setup IA frontier — quand passer aux modèles propriétaires payants et combien ça coûte.