J’ai accompagné des dizaines de freelances qui voulaient « créer un agent IA » en 2025. Dans 90% des cas, ils me montraient en fait un prompt ChatGPT déguisé : une boîte qui répond à une question, sans accès aux données, sans mémoire, sans pouvoir agir.
Ce n’est pas un agent IA. C’est un chatbot.
Un vrai agent IA, c’est un système qui décide seul quelle action prendre, utilise des outils pour accomplir des tâches, se souvient des échanges précédents, et consulte une base de connaissances pour répondre avec précision. Le tout, en autonomie.
Et la bonne nouvelle ? Tu peux en construire un en une après-midi avec n8n. Sans coder.
Voilà comment.
Agent IA vs workflow IA : la différence qui change tout
Un workflow IA classique suit un chemin prévu : tu reçois un email → un LLM rédige une réponse → tu envoies. Linéaire. Déterministe. Si l’email parle de remboursement, il fait pareil que pour une question produit. Le workflow ne décide rien.
Un agent IA, c’est l’inverse. Tu lui donnes :
- Un objectif (« réponds aux emails clients »)
- Des outils (CRM, base produits, calendrier, base de connaissances)
- Une mémoire (les échanges précédents)
- Un cerveau (un LLM qui orchestre)
L’agent décide lui-même quel outil utiliser, dans quel ordre, et combien de fois. Si l’email parle de remboursement, il consulte le CRM. Si c’est une question produit, il interroge la base de connaissances. Si c’est ambigü, il pose une question de clarification.
Pourquoi n8n plutôt qu’un autre outil
J’ai testé tous les principaux : Make, LangChain en code Python, Voiceflow, custom GPTs. Voici ma conclusion honnête après 4 ans à construire des agents pour des clients.
| Outil | Force | Faiblesse |
|---|---|---|
| n8n | AI Agent node natif, self-hostable, contrôle total, pas de coût d’exécution | Courbe d’apprentissage moyenne |
| Make | Plus simple, plus visuel | Pas de vrai AI Agent node, tu reconstruis tout à la main |
| LangChain (code) | Flexibilité maximale | Faut coder en Python, debugging cauchemardesque |
| Custom GPTs | Setup en 5 min | Pas d’accès aux outils externes en dehors de l’écosystème OpenAI |
Pour un freelance ou une PME qui veut un agent en production sans recruter un dev IA, n8n est le sweet spot. Tu as :
- Un node
AI Agentqui fait tout le travail d’orchestration - Une bibliothèque de Tools prêts à l’emploi (HTTP Request, Code, n’importe quel node n8n peut devenir un tool)
- Du Vector Store natif (Pinecone, Supabase, Qdrant, ou en-mémoire pour les démos)
- Du Memory (BufferWindowMemory, Postgres Chat Memory)
- Le choix du modèle (OpenAI, Anthropic, Ollama local, Mistral, Google)
Et surtout : tu vois ton agent réfléchir. Le panel d’exécution te montre chaque décision, chaque appel d’outil, chaque réponse intermédiaire. C’est le meilleur outil pédagogique que je connaisse pour comprendre comment fonctionne un agent.
Les 4 briques d’un agent IA (et leur rôle)
Un agent dans n8n se compose de 4 nœuds principaux, branchés autour du AI Agent central.
1. Le cerveau : Chat Model
C’est le LLM qui orchestre tout. Choix typiques en 2026 :
| Modèle | Usage recommandé | Coût indicatif |
|---|---|---|
| GPT-4o-mini | Agents généralistes, bon ratio prix/qualité | ~0,15$ / 1M tokens input |
| Claude Sonnet 4.5 | Raisonnement complexe, longue réflexion | ~3$ / 1M tokens input |
| Llama 3.3 70B (via Ollama local) | Self-hosted, données sensibles, RGPD | Gratuit (hardware) |
| Mistral Large | Souverain européen, hébergé en France | ~2€ / 1M tokens input |
2. Les bras : Tools
Les Tools, ce sont les actions que ton agent peut entreprendre. Dans n8n, n’importe quel node peut devenir un Tool.
Les classiques :
- HTTP Request Tool → appelle n’importe quelle API
- Calculator Tool → fait des maths fiables (les LLMs sont nuls en arithmétique)
- Code Tool → exécute du JavaScript pour parser/transformer des données
- Workflow Tool → l’agent peut déclencher un autre workflow n8n
- Vector Store Tool → on y vient juste après
Tu peux aussi exposer n’importe quelle intégration comme tool : Sheets, Notion, HubSpot, Stripe… 700+ apps disponibles.
3. La mémoire : Memory
Sans mémoire, ton agent oublie le message précédent à chaque tour. Inutilisable pour une vraie conversation.
n8n propose plusieurs types :
| Memory | Quand l’utiliser |
|---|---|
| Buffer Window Memory | Sessions courtes, démos, prototypage. Garde les N derniers messages en RAM. |
| Postgres Chat Memory | Production, multi-utilisateurs. Stocke chaque conversation en base. |
| Redis Chat Memory | Hautes performances, sessions chat temps réel. |
Pour 95% des use cases freelance, Postgres Chat Memory est le bon choix. Tu connectes ta DB Supabase / Neon / locale, et chaque utilisateur a sa propre session conversationnelle qui persiste.
4. La connaissance : Vector Store + RAG
C’est ici que ça devient puissant. Le RAG (Retrieval Augmented Generation) permet à ton agent de consulter ta documentation, tes contrats, tes emails passés, ton site web, avant de répondre.
Le principe en 3 phases :
- Indexation (une fois) : tu chunks tes documents, tu les transformes en vecteurs (embeddings), tu les stockes dans une base vectorielle.
- Retrieval (à chaque question) : la question de l’utilisateur est elle-même vectorisée, et la base retourne les 3-5 chunks les plus similaires.
- Generation : le LLM reçoit la question + les chunks pertinents en contexte, et répond avec les bonnes sources.
Bases vectorielles compatibles n8n natif :
| Vector Store | Avantage | Coût |
|---|---|---|
| Pinecone | Le plus mature, scalable | À partir de 70$/mois |
| Supabase Vector | Postgres + pgvector, déjà dans ta stack si tu utilises Supabase | Inclus dans Supabase free tier |
| Qdrant | Self-hosted, performant | Gratuit (VPS) |
| Simple Vector Store | En-mémoire, démo rapide | Gratuit |
Pour démarrer : Supabase Vector. Tu as 500 Mo gratuits, c’est largement assez pour quelques milliers de documents.
Tutoriel : agent assistant client avec RAG (45 minutes)
On va construire un agent réel : un assistant clientèle qui répond aux questions de tes clients sur tes produits, en se basant sur ta documentation Notion. S’il ne sait pas, il transfère vers l’humain via Slack.
Étape 1 — Indexer ta base de connaissances
Crée un workflow kb-indexation :
- Trigger : Manual Trigger (ou Schedule Trigger pour ré-indexer toutes les nuits)
- Notion node : récupère toutes les pages d’une database (ta doc produit)
- Token Splitter : découpe chaque page en chunks de 500 tokens (overlap 50)
- OpenAI Embeddings : transforme chaque chunk en vecteur (
text-embedding-3-small) - Supabase Vector Store (mode
Insert) : stocke les vecteurs avec métadonnées (titre, URL Notion)
Lance ce workflow une fois. Quelques minutes plus tard, ta base vectorielle est prête.
Étape 2 — Créer le workflow agent
Crée un nouveau workflow agent-support-client :
- Chat Trigger (ou Webhook si tu veux exposer une API)
- AI Agent node central
- Sur le port
Chat Model→ branche OpenAI Chat Model avecgpt-4o-mini - Sur le port
Memory→ branche Postgres Chat Memory (clé de session =sessionIddu Chat Trigger) - Sur le port
Tool→ branche un Vector Store Tool qui pointe vers ta base Supabase indexée à l’étape 1 - Sur le port
Tool→ branche aussi un Slack node configuré comme Tool (postMessageau canal#support-escalation)
Étape 3 — Le system prompt qui marche
Le system prompt définit la personnalité et les règles. Voici celui que j’utilise pour mes clients (à adapter) :
Tu es l'assistant clientèle de [Entreprise].
Tes règles :
1. Réponds UNIQUEMENT en te basant sur les chunks retournés
par l'outil "knowledge_base". Ne jamais inventer.
2. Si l'information n'est pas dans la base, dis-le
honnêtement et utilise l'outil "escalate_to_human"
pour transférer la question via Slack.
3. Cite la source à chaque réponse (titre + URL Notion).
4. Reste concis : 3 phrases max sauf si l'utilisateur
demande plus de détails.
5. Tutoie l'utilisateur, ton chaleureux mais pro.
Exemple de bonne réponse :
"Pour annuler ton abonnement, va dans
Paramètres > Facturation et clique sur 'Résilier'.
La résiliation prend effet à la fin de la période
en cours. (Source : Guide annulation - notion.so/...)"
Les 3 mots-clés cruciaux :
- « UNIQUEMENT en te basant sur » → réduit les hallucinations de 70% selon mes tests
- « Cite la source » → l’utilisateur peut vérifier, et tu détectes vite quand l’agent se trompe
- « utilise l’outil escalate_to_human » → l’agent sait qu’il a un fallback, il s’en sert
Étape 4 — Tester et débugger
Active le mode Listening du Chat Trigger. Tu obtiens une URL de chat. Pose des questions :
- ✅ « Comment annuler mon abonnement ? » → l’agent consulte la KB, répond avec source
- ✅ « Quelle est la météo à Paris ? » → l’agent dit « hors sujet », n’invente pas
- ✅ « J’ai un bug, mon paiement n’est pas passé » → l’agent escalade vers Slack
Quand un comportement est bizarre, lis le panel d’exécution. Tu vois exactement quels outils l’agent a appelés, avec quels arguments, et quelle réponse intermédiaire il a reçue. C’est de l’or pour comprendre.
Combien ça coûte vraiment
Voici les coûts réels d’un agent en production que j’ai déployé pour un client (e-commerce, ~500 questions/mois) :
| Poste | Coût mensuel |
|---|---|
| GPT-4o-mini (input + output) | 4,20€ |
| OpenAI Embeddings (réindexation hebdo) | 0,15€ |
| Supabase Vector (free tier) | 0€ |
| n8n self-hosted (VPS Hetzner CX22) | 4,90€ |
| Postgres (Supabase free tier) | 0€ |
| TOTAL | ~9€/mois |
Pour 500 conversations. Soit 0,018€ par conversation.
Les 5 erreurs que je vois constamment
1. Pas de garde-fou anti-hallucination
L’agent invente des features qui n’existent pas. Cause : system prompt trop vague. Fix : ajouter explicitement « Si l’information n’est pas dans la base de connaissances, dis-le ».
2. Mémoire qui explose
L’agent ralentit après 50 messages. Cause : Buffer Window Memory trop large.
Fix : limiter à 10 messages dans la fenêtre, ou utiliser une Summary Memory qui résume au-delà.
3. Boucle infinie sur les tools
L’agent appelle le même outil 20 fois et explose le budget tokens. Cause : pas de maxIterations configuré.
Fix : dans le AI Agent node, set maxIterations: 5 (suffit pour 95% des cas).
4. Chunking au pif
Les réponses sont approximatives. Cause : chunks trop gros ou trop petits. Fix : 500 tokens / 50 overlap pour de la doc, 1000/100 pour du juridique, 200/20 pour du chat history.
5. Pas de monitoring
L’agent dérape pendant 2 semaines avant que quelqu’un s’en rende compte. Cause : tu te fies au logs n8n qui sont volatiles.
Fix : à chaque exécution, log dans une table Postgres (timestamp, question, réponse, tools_used, tokens, cost). En 1 mois tu as les data pour optimiser.
Aller plus loin : MCP et agents multi-étapes
Si ton agent commence à devenir complexe (10+ outils), explore deux directions :
-
MCP (Model Context Protocol) — le standard 2026 pour connecter des LLMs à des sources externes. n8n a sorti des nodes
MCP Client TooletMCP Server Triggerdébut 2026. Permet d’exposer ton agent comme un tool consommable par Claude Desktop, Cursor, ou n’importe quel client MCP. Doc n8n MCP. -
Multi-agent — au lieu d’un seul agent qui fait tout, plusieurs agents spécialisés qui se passent les tâches. Pattern « orchestrator-workers » : un agent superviseur dispatche aux agents spécialistes (un agent SAV, un agent commercial, un agent technique).
Ces patterns sont au programme avancé de la formation n8n, parce qu’ils nécessitent de bien maîtriser les fondamentaux d’abord.
Le mot de la fin
L’écosystème n8n + agents IA est en explosion. MCP, Vector Stores, modèles locaux, multi-agents — chaque mois, de nouveaux blocs s’ajoutent. La barrière d’entrée n’a jamais été plus basse.
La seule question qui reste : tu commences quand ?
Tu veux maîtriser tout ça en pratique ? La formation n8n complète couvre les 11 modules de zéro aux agents IA en production : workflows, intégrations, RAG, Vector Store, MCP, et 3 projets end-to-end. Premier Trainer Partner Make en France comme formateur, garantie 30 jours.