Robots.txt : optimisation, exemples et erreurs à éviter

Robots.txt : optimisation, exemples et erreurs à éviter

Le fichier robots.txt est l'un des éléments techniques SEO les plus simples et les plus mal compris. Il indique aux robots des moteurs de recherche quelles parties de votre site ils peuvent ou ne peuvent pas explorer. Une erreur peut désindexer tout votre site. Voici la méthode pour le configurer correctement.

Qu'est-ce que le robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine d'un site web (à l'URL https://exemple.com/robots.txt). Il contient des directives à destination des robots des moteurs de recherche (User-agents) pour leur indiquer quelles URL ils peuvent ou ne peuvent pas crawler.

Pourquoi est-il important ?

  • Économiser le crawl budget en bloquant les pages sans valeur
  • Empêcher l'exploration de zones privées ou techniques
  • Éviter d'indexer des contenus dupliqués (paramètres, filtres)
  • Indiquer l'emplacement du sitemap XML

Syntaxe de base

Structure simple :

User-agent: [nom du robot]
Disallow: [URL ou pattern à bloquer]
Allow: [URL ou pattern à autoriser]
Sitemap: [URL du sitemap XML]

Les directives clés

User-agent

Identifie le robot concerné. Valeurs courantes :

  • * : tous les robots
  • Googlebot : robot de Google
  • Bingbot : robot de Bing
  • Googlebot-Image : robot de Google Images
  • AhrefsBot : robot Ahrefs

Disallow

Bloque l'exploration d'un répertoire ou d'une URL :

  • Disallow: /admin/ : bloque tout le dossier /admin/
  • Disallow: /private.html : bloque une page spécifique
  • Disallow: / : bloque tout le site (à éviter !)
  • Disallow: (vide) : n'interdit rien

Allow

Autorise explicitement, utilisé en exception :

Disallow: /private/
Allow: /private/public-page.html

Sitemap

Indique l'emplacement du sitemap XML :

Sitemap: https://exemple.com/sitemap.xml

Wildcards et patterns

  • * : remplace n'importe quelle séquence de caractères
  • $ : marque la fin d'une URL

Exemples :

  • Disallow: /*? : bloque toutes les URLs avec point d'interrogation (paramètres)
  • Disallow: /*.pdf$ : bloque tous les fichiers PDF
  • Disallow: /*&search= : bloque les pages avec ce paramètre

Exemples de robots.txt

Configuration WordPress standard

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php

Sitemap: https://exemple.com/sitemap.xml

Configuration site e-commerce

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /search/
Disallow: /*?orderby=
Disallow: /*?filter=
Allow: /

Sitemap: https://exemple.com/sitemap.xml

Configuration site en construction

User-agent: *
Disallow: /

Sitemap: https://exemple.com/sitemap.xml

Attention : un Disallow: / général empêche tout crawl. À retirer impérativement avant le lancement du site.

Erreurs critiques à éviter

1. Bloquer tout le site involontairement

Erreur catastrophique : Disallow: / pour User-agent: * bloque tous les robots. C'est la principale cause de chute brutale d'un site dans les SERP.

2. Bloquer les ressources nécessaires au rendu

Bloquer les fichiers CSS, JS ou images empêche Google de bien comprendre la page. Conséquence : pénalité de mobile-friendliness, déclassement.

À ne jamais bloquer :

  • /wp-content/themes/ (CSS et JS du thème)
  • /wp-content/plugins/ (sauf cas particuliers)
  • Les fichiers .css, .js, .png, .jpg essentiels

3. Confondre Disallow et Noindex

Le robots.txt empêche le crawl, pas l'indexation. Une page bloquée par robots.txt mais déjà indexée le restera. Pour désindexer, utilisez la balise meta noindex sur la page.

4. Sensibilité à la casse

Les chemins sont sensibles à la casse. Disallow: /Admin/ ne bloque pas /admin/.

5. Ordre des règles

L'ordre n'a pas d'importance pour Disallow, mais l'instruction la plus spécifique l'emporte (Allow plus précis qu'un Disallow plus général).

6. Utiliser robots.txt pour la sécurité

Le robots.txt est public (accessible à tous via /robots.txt). Ne l'utilisez jamais pour « cacher » des pages sensibles : indiquez plutôt clairement aux internautes quoi voir.

Tester son robots.txt

Outils :

  • Google Search Console : « Outil de test du fichier robots.txt » (dans les outils anciens)
  • robots.txt Tester : outils en ligne (Technicalseo, SEOptimer)
  • Screaming Frog : audit complet du robots.txt avec les directives appliquées

Cas particuliers

Sites multilingues

Un seul robots.txt pour tout le domaine, gère les sous-dossiers ou sous-domaines selon la structure.

Sous-domaines

Chaque sous-domaine a son propre robots.txt (blog.exemple.com a son fichier indépendant).

Site en HTTPS

Le robots.txt en HTTPS s'applique aux URLs HTTPS. Maintenir une cohérence entre les versions.

Bonnes pratiques générales

  • Garder le fichier simple et lisible
  • Documenter les règles avec des commentaires (#)
  • Ne jamais bloquer les fichiers de rendu
  • Toujours déclarer le sitemap
  • Vérifier après chaque modification (Search Console)
  • Conserver un historique des versions

Robots.txt et IA

En 2026, les robots des LLM (GPTBot, Claude-Web, Bard, Google-Extended) crawlent aussi les sites. Pour les bloquer ou les autoriser :

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

Décision stratégique : ces robots sont moins prévisibles que Googlebot. Selon votre stratégie de contenu, vous pouvez autoriser ou bloquer.

Robots.txt vs autres outils de contrôle

OutilEffetCas d'usage
robots.txt DisallowEmpêche le crawlÉconomiser le crawl budget
Meta noindexEmpêche l'indexationPages sans valeur SEO mais utiles aux utilisateurs
CanonicalDésigne la version officielleContenu dupliqué
Disavow ToolDésavoue des backlinksLiens toxiques
AuthentificationBloque l'accèsVraies données privées

Conclusion

Le robots.txt est un fichier petit mais critique. Une erreur peut faire tomber un site entier dans les SERP. Configurez-le avec rigueur, testez systématiquement, et maintenez-le simple. Pour aller plus loin : SEO technique complet, sitemap XML, Core Web Vitals, Schema.org.