Le fichier robots.txt est l'un des éléments techniques SEO les plus simples et les plus mal compris. Il indique aux robots des moteurs de recherche quelles parties de votre site ils peuvent ou ne peuvent pas explorer. Une erreur peut désindexer tout votre site. Voici la méthode pour le configurer correctement.
Qu'est-ce que le robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine d'un site web (à l'URL https://exemple.com/robots.txt). Il contient des directives à destination des robots des moteurs de recherche (User-agents) pour leur indiquer quelles URL ils peuvent ou ne peuvent pas crawler.
Pourquoi est-il important ?
- Économiser le crawl budget en bloquant les pages sans valeur
- Empêcher l'exploration de zones privées ou techniques
- Éviter d'indexer des contenus dupliqués (paramètres, filtres)
- Indiquer l'emplacement du sitemap XML
Syntaxe de base
Structure simple :
User-agent: [nom du robot] Disallow: [URL ou pattern à bloquer] Allow: [URL ou pattern à autoriser] Sitemap: [URL du sitemap XML]
Les directives clés
User-agent
Identifie le robot concerné. Valeurs courantes :
*: tous les robotsGooglebot: robot de GoogleBingbot: robot de BingGooglebot-Image: robot de Google ImagesAhrefsBot: robot Ahrefs
Disallow
Bloque l'exploration d'un répertoire ou d'une URL :
Disallow: /admin/: bloque tout le dossier /admin/Disallow: /private.html: bloque une page spécifiqueDisallow: /: bloque tout le site (à éviter !)Disallow:(vide) : n'interdit rien
Allow
Autorise explicitement, utilisé en exception :
Disallow: /private/ Allow: /private/public-page.html
Sitemap
Indique l'emplacement du sitemap XML :
Sitemap: https://exemple.com/sitemap.xml
Wildcards et patterns
*: remplace n'importe quelle séquence de caractères$: marque la fin d'une URL
Exemples :
Disallow: /*?: bloque toutes les URLs avec point d'interrogation (paramètres)Disallow: /*.pdf$: bloque tous les fichiers PDFDisallow: /*&search=: bloque les pages avec ce paramètre
Exemples de robots.txt
Configuration WordPress standard
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-includes/ Disallow: /xmlrpc.php Sitemap: https://exemple.com/sitemap.xml
Configuration site e-commerce
User-agent: * Disallow: /admin/ Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /search/ Disallow: /*?orderby= Disallow: /*?filter= Allow: / Sitemap: https://exemple.com/sitemap.xml
Configuration site en construction
User-agent: * Disallow: / Sitemap: https://exemple.com/sitemap.xml
Attention : un Disallow: / général empêche tout crawl. À retirer impérativement avant le lancement du site.
Erreurs critiques à éviter
1. Bloquer tout le site involontairement
Erreur catastrophique : Disallow: / pour User-agent: * bloque tous les robots. C'est la principale cause de chute brutale d'un site dans les SERP.
2. Bloquer les ressources nécessaires au rendu
Bloquer les fichiers CSS, JS ou images empêche Google de bien comprendre la page. Conséquence : pénalité de mobile-friendliness, déclassement.
À ne jamais bloquer :
- /wp-content/themes/ (CSS et JS du thème)
- /wp-content/plugins/ (sauf cas particuliers)
- Les fichiers .css, .js, .png, .jpg essentiels
3. Confondre Disallow et Noindex
Le robots.txt empêche le crawl, pas l'indexation. Une page bloquée par robots.txt mais déjà indexée le restera. Pour désindexer, utilisez la balise meta noindex sur la page.
4. Sensibilité à la casse
Les chemins sont sensibles à la casse. Disallow: /Admin/ ne bloque pas /admin/.
5. Ordre des règles
L'ordre n'a pas d'importance pour Disallow, mais l'instruction la plus spécifique l'emporte (Allow plus précis qu'un Disallow plus général).
6. Utiliser robots.txt pour la sécurité
Le robots.txt est public (accessible à tous via /robots.txt). Ne l'utilisez jamais pour « cacher » des pages sensibles : indiquez plutôt clairement aux internautes quoi voir.
Tester son robots.txt
Outils :
- Google Search Console : « Outil de test du fichier robots.txt » (dans les outils anciens)
- robots.txt Tester : outils en ligne (Technicalseo, SEOptimer)
- Screaming Frog : audit complet du robots.txt avec les directives appliquées
Cas particuliers
Sites multilingues
Un seul robots.txt pour tout le domaine, gère les sous-dossiers ou sous-domaines selon la structure.
Sous-domaines
Chaque sous-domaine a son propre robots.txt (blog.exemple.com a son fichier indépendant).
Site en HTTPS
Le robots.txt en HTTPS s'applique aux URLs HTTPS. Maintenir une cohérence entre les versions.
Bonnes pratiques générales
- Garder le fichier simple et lisible
- Documenter les règles avec des commentaires (#)
- Ne jamais bloquer les fichiers de rendu
- Toujours déclarer le sitemap
- Vérifier après chaque modification (Search Console)
- Conserver un historique des versions
Robots.txt et IA
En 2026, les robots des LLM (GPTBot, Claude-Web, Bard, Google-Extended) crawlent aussi les sites. Pour les bloquer ou les autoriser :
User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: anthropic-ai Disallow: /
Décision stratégique : ces robots sont moins prévisibles que Googlebot. Selon votre stratégie de contenu, vous pouvez autoriser ou bloquer.
Robots.txt vs autres outils de contrôle
| Outil | Effet | Cas d'usage |
|---|---|---|
| robots.txt Disallow | Empêche le crawl | Économiser le crawl budget |
| Meta noindex | Empêche l'indexation | Pages sans valeur SEO mais utiles aux utilisateurs |
| Canonical | Désigne la version officielle | Contenu dupliqué |
| Disavow Tool | Désavoue des backlinks | Liens toxiques |
| Authentification | Bloque l'accès | Vraies données privées |
Conclusion
Le robots.txt est un fichier petit mais critique. Une erreur peut faire tomber un site entier dans les SERP. Configurez-le avec rigueur, testez systématiquement, et maintenez-le simple. Pour aller plus loin : SEO technique complet, sitemap XML, Core Web Vitals, Schema.org.


Avis Linkuma 2026 : retour d'expérience après un an d'utilisation
Balise title SEO : la balise qui change tout
Mesurer son SEO : les KPIs et outils à suivre