Rate this post

En tant qu’experts SEO, nous savons à quel point le fichier robots.txt est un élément clé de la stratégie de référencement d’un site web. Ce fichier texte placé à la racine d’un site web permet d’indiquer aux moteurs de recherche les pages qu’ils sont autorisés à crawler et indexer. Bien configuré, le robots.txt permet d’optimiser le crawl budget alloué par Google et d’améliorer le référencement naturel du site.

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte qui indique aux robots des moteurs de recherche comme Google les parties d’un site web qu’ils sont autorisés à visiter. Il fait partie du protocole d’exclusion des robots, appelé Robots Exclusion Protocol (REP).

Ce fichier permet de bloquer l’accès des robots d’indexation à certaines pages ou répertoires du site qui ne doivent pas être indexés. Le fichier robots.txt est lu par les robots avant qu’ils n’explorent le reste des pages du site.

Il se présente sous la forme de directives composées de deux parties :

  • User-agent : pour indiquer à quel robot s’adresse la règle
  • Disallow : pour indiquer l’URL à bloquer

Par exemple : User-agent: * Disallow: /repertoire-prive/

Cette règle interdira à tous les robots d’indexer le répertoire /repertoire-prive/.

LIRE :  Guide du référencement multilingue et multirégional

Comment fonctionne le fichier robots.txt ?

Lorsqu’un robot arrive sur un site web, il commence par vérifier s’il existe un fichier robots.txt. S’il en trouve un, il le lit et respecte les directives indiquées avant de continuer l’exploration du site.

Si aucun fichier robots.txt n’est présent, le robot considère qu’il a le droit d’indexer toutes les pages du site.

Le fonctionnement est le suivant :

  1. Le robot cherche le fichier robots.txt à la racine du site
  2. Il lit les directives et identifie les parties du site à ne pas visiter
  3. Il explore et indexe uniquement les URLs autorisées
  4. Il transmet les pages indexées au moteur de recherche

Les principaux robots concernés sont ceux de Google (Googlebot), Bing (Bingbot) et Yahoo (Slurp).

Quels sont les avantages du fichier robots.txt ?

Bien utilisé, le fichier robots.txt présente de nombreux avantages en SEO :

  • Éviter l’indexation de pages inutiles ou peu qualitatives
  • Bloquer l’accès à des pages sensibles comme l’administration du site
  • Limiter la sollicitation des serveurs
  • Masquer le moteur de recherche interne
  • Éviter le référencement de contenus dupliqués
  • Optimiser le crawl budget de Google
  • Accélérer l’indexation des nouvelles pages

En résumé, un fichier robots.txt optimisé améliore l’exploration des robots et le référencement naturel du site.

Créer un fichier robots.txt efficace

Syntaxe et langage du fichier robots.txt

La syntaxe du fichier robots.txt suit des règles précises :

  • Il doit être placé à la racine du site sous le nom robots.txt
  • Il utilise le format texte brut ASCII ou UTF-8
  • Il contient des directives composées d’un user-agent et d’une commande
  • Les commandes principales sont Disallow pour bloquer une URL et Allow pour autoriser
  • Il peut utiliser des jokers comme * et $ dans les URLs
LIRE :  Comprendre les bonnes pratiques du référencement naturel

Le language est simple à prendre en main. En voici un exemple contenant deux directives : User-agent: * Disallow: /repertoire-prive/ User-agent: Googlebot Allow: /repertoire-prive/fichier.html

La première règle bloque l’accès à tout le répertoire /repertoire-prive/ pour tous les robots.

La deuxième règle autorise spécifiquement Googlebot à accéder au fichier /repertoire-prive/fichier.html.

Directives et commandes clés du fichier robots.txt

Les principales directives à connaître pour créer son fichier robots.txt sont :

  • User-agent – Pour définir le robot ciblé (ex: Googlebot)
  • Disallow – Pour bloquer une partie du site
  • Allow – Pour autoriser l’accès à une URL bloquée
  • Sitemap – Pour indiquer l’URL du sitemap
  • Crawl-delay – Pour définir une latence entre les requêtes

Les commandes Acceptent généralement des jokers comme * pour toute chaîne de caractères et $ pour la fin d’une URL.

Il est possible de combiner plusieurs règles pour affiner les accès. L’ordre des directives est important, les règles les plus spécifiques doivent être placées en dernier.

Exemples de fichiers robots.txt

Voici quelques exemples de fichiers robots.txt pour différents cas d’usage :

Bloquer l’accès à tout le site : User-agent: * Disallow: /

Autoriser l’accès à tout le site : User-agent: * Disallow:

Bloquer un dossier pour un robot : User-agent: Googlebot Disallow: /dossier-prive/

Autoriser l’accès à un fichier précis : User-agent: * Disallow: /dossier/ User-agent: Googlebot Allow: /dossier/fichier.html

Ces exemples montrent comment créer des règles précises pour optimiser l’accès des robots en fonction des besoins de chaque site web.

Optimiser son fichier robots.txt

Où placer son fichier robots.txt

Pour être lu et pris en compte, le fichier robots.txt doit impérativement être placé à la racine du site web ou du domaine concerné. Son emplacement doit être : http://www.exemple.com/robots.txt

LIRE :  Optimiser ses ancres de lien pour un meilleur référencement

Pour un sous-domaine, il faudra placer un fichier dédié à sa racine : http://blog.exemple.com/robots.txt

Le nom du fichier doit toujours être robots.txt en minuscule sans extension. Il est accessible publiquement à cette URL.

Comment tester et valider son fichier robots.txt

Plusieurs méthodes permettent de tester et valider la configuration de son fichier robots.txt :

  • Utiliser l’outil de test dans Google Search Console
  • Vérifier les journaux d’activité des robots dans Analytics
  • Tester l’accès aux URLs avec un outil comme Webmaster Toolkit
  • Vérifier que les pages bloquées ne sont pas indexées avec une recherche site:

Il est recommandé de tester régulièrement son robots.txt pour s’assurer qu’il bloque et autorise les bonnes parties du site.

Bonnes pratiques pour un fichier robots.txt optimal

Pour optimiser l’efficacité de votre fichier robots.txt, voici quelques bonnes pratiques à retenir :

  • Ne bloquez pas l’accès aux CSS, JS, images dont votre site a besoin
  • N’utilisez pas le robots.txt pour les données sensibles, préférez le noindex
  • Indiquez l’emplacement de votre sitemap XML
  • Testez votre fichier avant de le mettre en ligne
  • Utilisez des règles spécifiques plutôt que de bloquer tout un site
  • Autorisez l’accès au contenu que vous souhaitez référencer
  • Mettez à jour votre fichier robots.txt en cas de changement sur le site

Bien configuré selon les besoins de chaque site, le fichier robots.txt permet d’optimiser le crawling des moteurs de recherche et d’améliorer ainsi le référencement naturel des pages.