fbpx

Robots.txt : comment l'utiliser et le remplir

Le 30 avril 2020

Quel est le rôle des fichiers robots.txt ? Pourquoi est-ce nécessaire de les utiliser ? Comment les paramétrer ? Just Search, répond à vos questions. Pas de panique, vous n’avez pas besoin d’être un pro du développement web pour comprendre !

Vous croyez qu’un contenu bien optimisé suffit pour référencer votre site ? Eh bien, pas forcément. Malgré une bonne optimisation SEO, certains sites n’affichent pas dans les premiers résultats des moteurs de recherche. C’est là que l’intérêt des fichiers robots.txt entre en jeu.

Si vous possédez un site internet, il est primordial de maîtriser cet outil, malheureusement négligé par certains. Vous serez étonné de découvrir qu’il contribue largement à améliorer le positionnement de votre contenu dans les SERP de Google.

Le fichier robots.txt, c’est quoi ?

Lorsqu’on parle de robot, on parle en fait de logiciels qui interviennent sur les sites. Les moteurs de recherche comme Google utilisent les robots, aussi appelés spiders ou agents, pour parcourir les contenus des diverses pages web, pour ensuite pouvoir les indexer. C’est grâce à ce processus que les moteurs de recherche parviennent à afficher les sites sur les pages de résultats en rapport avec la recherche d’un internaute.

Et qu’en est-il des fichiers robots.txt ? C’est cet outil qui contribue à influencer toute la procédure. Bien avant l’exploration d’un site, le robot recueille d’abord des instructions via le fichier robot.txt. Si ce dernier n’est pas configuré correctement, ou pire, s’il n’existe pas, le robot ne parviendra pas à indexer convenablement votre page web.

De plus, ce fichier permet de restreindre l’accès des robots à votre site ou à certains de vos contenus. Ce principe est notamment très utile pour les intranets qui veulent limiter l’accessibilité à leur site pour un usage privé.

Mis à part cette possibilité de restriction, c’est par le biais du fichier robots.txt qu’un site internet peut afficher la localisation de son fichier sitemap aux moteurs de recherche.

L’importance du robots.txt dans le domaine du SEO

Grâce au fichier robots.txt, vous pouvez sélectionner les pages que le spider pourra crawler. En n’autorisant que l’indexation des contenus les plus pertinents, ainsi l’optimisation SEO de votre site sera bien plus efficace.

Par ailleurs, plus nombreux sont les pages de votre site, et plus les robots mettront du temps à tout à crawler. Cela peut rendre le processus moins efficace et le logiciel pourrait ne pas détecter certains contenus. À noter que le nombre de pages que les spiders peuvent parcourir est restreint. Il est donc pertinent d’indiquer aux robots quelles sont les pages les plus qualitatives grâce au fichier robots.txt.

Qu’est-ce qu’on entend par URLs non qualitatives ?

Il s’agit de pages qui ne contribuent pas à optimiser votre SEO, comme les descriptifs produits dupliqués. Les fenêtres d’inscription ou d’identification de session utilisées par les sites marchands en font également partie. C’est aussi le cas des interfaces affichant les filtres pour faciliter les recherches.

Comme la majorité des sites web, en particulier les boutiques en ligne, regorgent d’URLs à faible valeur ajoutée, il est clair que la présence du fichier robots.txt est essentielle pour garantir votre référencement SEO.

Les étapes de création et de paramétrage d’un fichier robot.txt

Tout d’abord, il vous faut entrer à la racine de votre site. Vous avez le choix entre réaliser la création du fichier de façon manuelle, ou bien de le faire engendrer automatiquement par des Systèmes de Gestion de Contenu (CMS) comme WordPress. Il existe de nombreux outils disponibles en ligne pour vous faciliter la tâche.

En ce qui concerne la méthode manuelle, il vous suffit d’employer un éditeur de texte comme TextMate ou bien Notepad. Veuillez à bien respecter ces trois points pour que le fichier soit opérationnel :

  • Les instructions et la syntaxe ;
  • La structure : indiquer une instruction par ligne et éviter de mettre une ligne vide ;
  • La nomination du fichier : robots.txt, en faisant attention à ne pas omettre le « s ».

Une fois avoir entré ces données, intégrez le tout.

Voici un exemple plus concret : l’adresse de votre site est https://monsite.com, dans ce cas, l’URL de votre fichier robot.txt sera https://monsite.com/robots.txt.

Pour placer le fichier à la racine de votre site, vous avez deux options :

  • Utiliser un client FTP (signifiant File Transfert Protocol), comme FilzeZilla. Cela vous permettra d’accéder au serveur.
  • Passer par l’intermédiaire de l’hébergeur de votre site, en vous y connectant, pour ensuite entrer dans le gestionnaire de fichiers.

Quelques notions de base à maitriser sur les termes utilisés dans le fichier robots.txt

Lorsque vous accèderez au paramétrage des instructions de votre fichier, voici les trois termes techniques que vous devez comprendre :

  • « Disallow » : indique l’interdiction d’explorer un dossier ou une URL ;
  • « Allow » : indique l’autorisation d’accéder à une URL localisée dans un dossier préalablement interdit ;
  • « User-agent » : indique le nom du spider utilisé par le moteur de recherche concerné par l’instruction que vous avez entrée. Chacun est désigné par un nom précis. Pour Google, il s’agira notamment de Googlebot, tandis que pour Bing, l’user-agent sera défini en Bingbot.

Voici un exemple de directive :

  • User-Agent : * (pour indiquer que tous les spiders des moteurs de recherche seront concernés par la commande) ;
  • Disallow : /intranet/ (pour empêcher l’accès au dossier intranet) ;
  • Allow : /*.css?* (pour agréer l’exploration des ressources CSS).

À noter : au lieu de citer tous les robots dans la partie User-Agent, il vous suffit d’insérer l’astérisque (*) pour indiquer que l’instruction englobe tous les robots, sans exception.

Pour rappel : il est très important de maîtriser ces directives pour le bien de votre SEO. En interdisant l’accès à des pages avec des contenus à faible valeur ajoutée, vous aurez plus de chance d’avoir un bon classement lors de l’indexation.

Robots.txt : d’autres termes à connaitre !

Le sitmap

Comme expliqué précédement, votre fichier robots.txt vous permet aussi d’indiquer au moteur de recherche l’adresse de votre sitemap XML. L’ajout de cette directive n’est pas pour autant obligatoire, cela dépend de vous.

Voici un exemple d’insertion du sitmap :

  • User-agent : *
  • Disallow : /wp-admin/
  • Sitemap : (indiquez votre adresse)

L’ajout de commentaires

Il est possible de rajouter un commentaire précisant la signification de la directive que vous avez entrée. Il s’agit d’un moyen pour vous éviter de ne pas vous perdre dans les instructions de votre fichier. Pour insérer un commentaire, vous devez d’abord entrer le symbole #.

En guise d’illustration :

  • #Empêcher Google d’accéder au répertoire /wp-admin
  • User-agent : Googlebot
  • Disallow : /wp-admin/

Noindex

Comme expliqué plutôt, le terme « Disallow » interdit l’accès à une page, or il peut arriver que celle-ci soit quand même indexée. En mentionnant l’instruction « Noindex », vous éviterez cet incident.

À titre d’exemple :

  • User-agent : Baidubot
  • Noindex : /remerciements/
  • Disallow : /remerciements/

Quelques règles à ne pas oublier

  • Le plus important est sûrement de sauter une ligne à chaque instruction et d’éviter également de sauter deux fois une ligne. Cela engendrerait une mal-interprétation au niveau des robots et une faille dans le processus ;
  • Chaque spider possède son ordre de priorité. Google privilégie notamment les instructions les plus spécifiques, tandis que d’autres moteurs de recherche se contentent de prioriser celles affichées en premier ;
  • Il existe des robots malintentionnés qui ignorent sans raison le fichier robots.txt ;
  • La taille de votre fichier ne doit pas dépasser 500 Ko. Les données en trop ne seront pas détectées par le robot ;
  • Le fichier est sensible à la casse. Il faudra ainsi omettre d’utiliser des majuscules dans vos liens et votre répertoire.

Comment savoir que votre fichier robots.txt est opérationnel ?

Bien sûr, il faut toujours vous assurer que les paramétrages insérés sont fonctionnels. Pour effectuer la vérification, consultez la Google Search Console. Sélectionnez le menu « Exploration », puis « Outil de test du fichier robots.txt ». L’interface affichera un champ vide où vous remplirez tous les directives insérées dans votre fichier. Il ne vous reste plus qu’à appuyer sur « tester » pour voir si vos données seront bien détectées par les spiders.

Si le résultat affiche « Autorisé », cela signifie que vous avez réussi toutes les étapes !

Si le système a remarqué des failles ou bien que le réglage vous semble trop complexe, vous pouvez toujours avoir recours au service d’un professionnel du SEO pour vous aider.

Partagez cet article

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

CONTACTEZ-NOUS

POUR UN AUDIT OU POUR UN DEVIS

Du brief initial jusqu’à la mise en œuvre, nous cherchons à identifier l’ampleur de la mission et à définir un planning pour s’assurer de la clarté du projet.

SIEGE ET BUREAUX

42 boulevard Sébastopol 73003 PARIS

01 75 43 80 78