Vous saurez tout sur le... fichier robots.txt

fichier robots.txt

Ceux qui connaissent la chanson auront compris la petite boutade dans le titre de l'article. Plus sérieusement, ce dernier va tenter de vous expliquer comment fonctionne ce petit fichier texte. Petit par la taille mais grand en termes de conséquences puisqu'il a une influence importante sur l'apparition de votre site web dans les moteurs de recherche. Une dernière chose, cet article est une traduction d'un post du blog fortheloveofseo.com

C’est incroyable de se dire qu’un simple petit fichier peut faire ou défaire votre site. Si une ligne ou deux dans votre fichier robots.txt sont erronées, cela pourrait envoyer comme message aux robots des moteurs de recherche de ne pas explorer ou d’indexer votre site... ce qui signifie que vos pages web n’apparaitront pas dans les moteurs de recherche.

Heureusement, cela est facile de vérifier et à corriger. Dans cet article, vous en apprendrez davantage sur ce fichier robots.txt, comment vérifier votre propre fichier robots.txt et comment améliorer les instructions fournies aux robots des moteurs de recherche.

Dans cet article, les sujets suivants seront abordés :

Qu’est-ce que le fichier robots.txt ?
A quoi peut me servir le fichier robots.txt ?
Comment fonctionne-t-il ?
Comment créer un fichier robots.txt ?
Que dois-je mettre dans mon fichier robots.txt ?
Comment vérifier et tester mon fichier robots.txt ?
Exemples amusants et originales de fichier robots.txt

Qu’est-ce que le fichier robots.txt ?

C’est un fichier se trouvant à la racine de votre site web qui permet d’autoriser ou de restreindre l’accès à vos pages web aux robots des moteurs de moteurs de recherche.

Imaginez les moteurs de recherche comme un grand livre contenant toutes les pages web du monde. Google, Yahoo et les autres envoient leurs « araignées » (ou robots d’indexation) pour trouver de nouvelles pages ou des pages mises à jour à ajouter à leur index. La première chose qu'ils recherchent quand ils arrivent sur votre site, c’est votre fichier robots.txt. Dans ce fichier, vous indiquez aux robots quelles pages vous voulez (ou ne voulez pas) qu’il lise (explore).

Gardez à l'esprit qu'il y a une différence entre "explorer" et "indexer". Le moteur de recherche peut explorer (lire) une page sans pour autant l’indexer (la faire apparaître dans les résultats de recherche), et vice-versa. Tout dépend des instructions présentes dans fichier robots.txt et les méta-tags robots.

Le fichier robots.txt est-il obligatoire ?

Si le robot d’indexation ne trouve pas de fichier robots.txt pour votre site web, il explorera et indexera alors toutes vos pages (sauf si vous avez mis en place des méta-tags robots avec d'autres instructions).

"Si vous souhaitez que les moteurs de recherché indexe entièrement votre site, vous n’avez pas besoin de fichier robots.txt (même un vide)."

Source : Support Google Webmaster Tools

Cependant, si vous n’avez pas de fichier robots.txt, votre serveur retournera une erreur 404 à chaque fois qu’un robot tentera d’accéder à ce dernier.

"…afin d’éviter le message d’erreur “file not found” dans le log de votre serveur, vous pouvez créer un fichier robots.txt vide"

Source : Googlebot

Ce n'est pas toujours la solution idéale mais après avoir lu cet article, je suis sûr que vous trouverez au moins une chose à améliorer dans votre fichier robots.txt.

A quoi peut me servir le fichier robots.txt ?

Votre fichier robots.txt peut vous aider entre autre :

si certaines pages ou répertoires de votre site web ne doivent pas apparaître dans les SERP (résultats des moteurs de recherche)
si vos pages dupliquées doivent être ignorées, par exemple si votre CMS génère plus d’une URL pour un même contenu
si ne voulez pas que les résultats de recherche internes de votre site ne soient indexés
à indiquer au moteur de recherche où se trouve votre plan de site
à indiquer au moteur de recherche quel version du contenu il doit indexer, si vous avez par exemple une version HTML et PDF d’un même contenu

Ne perdez pas de vue le fait que :

"… un fichier robots.txt est comme une pancarte « Priez, de ne pas entrer » sur porte déverrouillée. Vous n’empêcherez pas les gens malintentionnés de renter mais les autres liront la pancarte et ne franchiront pas la porte."

Source : What is robots.txt? (en anglais)

Comment fonctionne-t-il ?

Avant qu’un moteur de recherche n’explore votre site, il va d’abord jeter un oeil à votre fichier robots.txt pour savoir où vous voulez qu’il aille.

Le saviez-vous… sur votre compte Google Analytics, la visite d’un robot est comptabilisée dans le nombre total des visites. Pour voir seulement les visites « humaines », vous pouvez utiliser un filtre permettant d’exclure les visites de robots.

Il y a 3 choses à garder à l’esprit :

Certains robots peuvent ignorer votre fichier robots.txt. Des robots malveillants scannent le web à la recherche de failles de sécurité ou encore des récolteurs d’adresses e-mail utilisés par les spammeurs, ne se préoccuperont pas de vos instructions.
Le fichier robots.txt est public. Tout le monde peut voir quelles parties de votre site n’est pas explorées par les robots.
Les moteurs de recherche peuvent tout de même indexer (mais pas explorer) une page que vous avez bloqué, si un lien sur un autre site (back link) pointe vers celle-ci. Dans les résultats de la recherche, il montrera seulement l'url, généralement le titre ou le snippet n’apparaissent pas. Pour éviter cela, utilisez les méta-tags robots pour cette page.

Maintenant, rendez-vous sur votre site et vérifiez que vous avez bien un fichier robots.txt. Ajoutez simplement /robots.txt après votre nom de domaine. Ce qui devrait ressembler à quelque chose comme ça : http://www.votresite.com/robots.txt

Si cela apparaît, vous avez un problème :

User-agent: *
Disallow: /

Continuez de lire, vous allez vite comprendre pourquoi.

Comment créer un fichier robots.txt ?

Si vous n’avez pas de fichier robots.txt, vous devriez en créer un rapidement avant de continuer à lire cet article :

Créez un fichier texte classique et enregistrez le sous le nom « robots.txt ». N’utilisez que des minuscules, pas de Robots.TXT.
Transférez votre fichier à la racine de votre site (pas dans un répertoire).
Si vous ne vous êtes pas trompé, vous devriez pouvoir accéder à votre fichier robots.txt à l’adresse http://www.votresite.com/robots.txt

Note : Si vous utilisez des sous-domaines, vous devez créer un fichier robots.txt pour chaque sous-domaine.

Que dois-je mettre dans mon fichier robots.txt ?

Les propriétaires de sites web ne sont pas tous d’accord sur ce qu’il faut mettre ou pas dans le fichier robots.txt, c’est donc à vous de mettre ce que vous pensez être le mieux pour votre site et vos besoins.

ATTENTION : le fichier robots.txt n’a pas vocation à renforcer la sécurité de votre site web.

Il est recommandé de bloquer l'accès aux répertoires admin et privés de votre site dans votre fichier robots.txt. Sinon, vous pouvez par exemple utiliser les méta-tags robots pour empêcher les moteurs de recherches de les explorer/indexer.

Si vous voulez être sûr d’empêcher les robots d’accéder à votre contenu privé, il existe des mesures de sécurité appropriées (.htaccess et autres).

Vous pouvez utiliser le fichier robots.txt pour guider les robots, mais sachez que chaque robot décide ou non de suivre vos instructions.

Quelles instructions utiliser ?

Tout d'abord, ouvrez des fichiers robots.txt et utilisez-les comme références. N’hésitez pas, ouvrez le robots.txt de votre concurrent, ou celui d’un site web utilisant le même CMS que vous (ajouter simplement /robots.txt après le nom de domaine). Pour vous aider, voici quelques exemples :

Maintenant, nous allons voir les différentes lignes que contient votre fichier robots.txt :

User-agent:

Cette ligne permet de définir à quel robot vous parlez. C’est comme un message de bienvenue aux robots :

"Salut à tous les robots"

User-agent: *

"Salut robot Google"

User-agent: Googlebot

"Hi Yahoo! robot"

User-agent: Slurp

Pour connaître les différents robots d’indexation de Google, consultez cette liste. Robotstxt.org propose une base de données des robots mais je ne sais pas quand a été faite la dernière mise à jour.

Astuces : Vous pouvez voir quels robots est venu sur votre site en consultant les logs de votre serveur et utilisez ces informations pour compléter votre fichier robots.txt.

Tous les robots/user-agents ne comprennent pas toutes les instructions. Dans le Robots Exclusion Protocol, la commande Disallow: était la seule instruction officielle, plus tard est venue s’ajouter la commande Sitemap:

Dans la liste ci-dessous, vous trouverez des instructions non-officielles mais toutes fois utiles. Google et Bing suivent et respectent la plupart d’entre elles, mais malheureusement ce n’est pas le cas de tous les robots.

Pour chaque instruction, vous aurez la ligne user-agent en premier. C’est comme dire « Salut Google » et ensuite des instructions spécifiques pour Google.

C’est parti, voyons comment donner des instructions aux robots…

Disallow:

Cette instruction permet de dire aux robots ce que vous ne voulez pas qu’il explore :

"Salut à tous les robots, n’explorez rien sur mon site"

User-agent: *
Disallow: /

"Salut Google Images, n’explore pas mon dossier images (mais tu peux explorer tout le reste)"

User-agent: Googlebot-Image
Disallow: /images/

Note : De nombreux propriétaires de sites web bloque l’accès à leur dossier images, mais cela peut être une bonne chose de l’autoriser (pensez aux recherches Google Images). Prenez simplement soin de bien nommer vos images. Le nom doit faire référence à ce que l’on voit sur l’image (pas d’image1.jpg, image2.jpg, etc…). Si vous voulez enlever vos images de Google, lisez ceci.

Allow:

Cette instruction permet de dire aux robots ce que vous voulez qu’il explore :

"Salut à tous les robots, vous pouvez tout explorer sur mon site"

User-agent: *
Allow: /

Note : Si ce sont les seules lignes présentes dans votre fichier robots.txt, vous pouvez aussi bien le supprimer. S’il n’y a pas de fichier robots.txt, les moteurs de recherche exploreront tout de même toutes les pages de votre site.

"Salut à tous les robots, je ne souhaite pas que vous exploriez le dossier /XXX/, sauf le fichier /XXX/awesomestuff.html"

User-agent: *
Disallow: /XXX/
Allow: /XXX/awesomestuff.html

Rappelez-vous, les instructions spécifiques prennent le pas sur les instructions générales.

"Salut à tous les robots, n’explorez pas mon site… mais si vous êtes le robot Google alors vous êtes autorisé à explorer toutes les pages de mon site."

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Le site Semetrical.com a publié un article intéressant sur le sujet (en anglais) : Google’s Hidden Interpretation of Robots.txt (en anglais)

* (Astérisque/métacaractère)

Grâce au symbole *, vous indiquez aux robots que ce dernier peut correspondre à n’importe quel nombres ou caractères. Très utile par exemple si vous ne voulez pas que les résultats de recherche internes soient indexés :

"Salut à tous les robots, n’explorez pas mes pages de résultats de recherche… dont les urls contiennent /search.php? avec quelque avant et après ce dernier"

User-agent: *
Disallow: */search.php?*

Théoriquement, l’astérisque à la fin n’est pas nécessaire puisque les robots déterminent eux-mêmes la suite de l’URL (sauf si vous mettez $ à la fin). Cependant, Google lui-même utilise l’astérisque à la fin, il est donc préférable de le mettre.

"Salut à tous les robots, n’explorez pas les urls contenant le mot contact"

User-agent: *
Disallow: *contact*

Ceci exclue donc par exemple :

/you-can-contact-us-here/
/contact/form.html
/company/contact-us.html

$ (Le symbole dollar)

Le symbole dollar indique aux robots que c’est la fin de l’url.

"Salut robot Google, n’explore pas les fichiers .pdf de mon site web."

User-agent: Google-bot
Disallow: *.pdf$

"Salut à tous les robots, dans ma catégorie /help/, j’ai des fichiers qui se termine par .php. N’explorez aucun d’entre eux. Mais vous pouvez explorer tout le reste de la catégorie."

User-agent: *
Disallow: /help/*.php$

# (Dièse/commentaires)

Vous pouvez ajouter des commentaires après le symbole « # », que ce soit au début ou la fin de l’instruction. Cela est utile, si vous souhaitez préciser la fonction de chaque ligne :

# Instructions pour tous les robots
User-agent: *
Disallow: /archives/ # exploration de la catégorie bloquée

Plan de site :

Sitemap: http://www.votresite.com/sitemap.xml

Comme vous pouvez le voir, l’instruction Sitemap: n’a pas besoin de la ligne user-agent. Peu importe où vous placez la ligne Sitemap: dans votre fichier, mais il est préférable de la placer tout au début ou tout à la fin.

Vous pouvez indiquer plus d’un fichier XML dans le même fichier robots.txt mais si vous avez un fichier index pour votre plan de site, vous pouvez utiliser seulement ce dernier pour obtenir le même effet.

Crawl-Delay: - Request-rate: - Visit-time:

Ces instructions sont peu utilisées mais cela vaut tout de même la peine de les mentionner. Si vous utilisez l’une d’entre elles, faites le moi savoir avec un commentaire à la fin de l’article pour savoir si vous les trouvez utiles et quels robots les supporte.

Crawl-Delay :

Cette instruction demande au robot d’attendre un certain nombre de seconds après avoir explore une page.

"Salut Robot Yahoo !, attend 5 secondes entre chacune de tes requêtes s’il te plaît."

User-agent: Slurp
Crawl-delay: 5

Note : Google recommande de régler cette vitesse via l’outil Google Webmaster Tools.

Request-rate :

Cette instruction demande au robot d’explorer un certain nombre de page en un certain nombre de secondes. Le premier chiffre correspond au nombre de pages et le seconde pour les secondes.

"Salut à tous les robots, s’il vous plaît, explorez 1 page pour 5 secondes."

User-agent: *
Request-rate: 1/5 # load 1 page per 5 seconds

Visit-time :

Cela correspond aux heures d’ouverture, cette instruction indique à quel moment les robots peuvent explorer votre site web. Cela peut être utile si ne voulez pas que les robots viennent explorer votre durant les heures où le trafic « humain » est le plus élevé.

User-agent: *
Visit-time: 2100-0500 # only visit between 21:00 (9PM) and 05:00 (5AM) UTC (GMT)

Note : Tous les horaires sont en UTC/GMT.

Comment vérifier et tester votre fichier robots.txt

Il existe quelques outils libres sur la toile mais je vous conseille d’utiliser les Webmaster Tools de Google et de Bing pour faire le bilan de santé de vos sites web.

Webmaster Tools de Google

Webmaster Tools de Google permet de vérifier votre site web en se basant sur les informations fournies par Google. C’est un ensemble d’outils et de rapports et c’est entièrement gratuit.

Pour vous aider à créer votre fichier robots.txt, Google Webmaster Tools propose un générateur de robots.txt (destiné seulement aux robots de Google).

Vous pouvez vérifier et tester votre fichier robots.txt via Google Webmaster Tools > Configuration du site > Accès du robot d’exploration.

Vous devriez également détecter les éventuels problèmes que Googlebot à rencontrer en explorant votre site. Rendez-vous dans Google Webmaster Tools > Diagnostic > Erreurs d’exploration. Vous verrez les URLs restreintes par robots.txt. Vous pouvez également voir les erreurs du plan de site, les erreurs HTML, les URLs non suivies et les URLs périmées.

L’outil Googlebot de Webmaster Tools vous aide à comprendre précisément comment votre site est perçu par Googlebot. Ce qui peut être utile pour résoudre les problèmes de contenu sur votre site et l’apparition dans les résultats de recherche.

Source : Googlebot

Webmaster Tools de Bing

Tout comme Google Webmaster Tools, Bing Webmaster Tools est gratuit et très utiles à tous les proprietaries de sites web.

Rendez-vous dans Bing webmaster tools > erreurs d’analyse. En plus des problèmes de votre fichier robots.txt, il identifie les erreurs de statut HTTP, les pages infectées par un malware et plein d’autres choses à vérifier régulièrement.

Une fois que votre fichier robots.txt est prêt et validé, ne le laissez pas dans son coin. Mettez à jour régulièrement les instructions qu’il contient, en particulier après une refonte de votre site.

Source : Bing Webmaster Center Blog (en anglais)

Autres sources d’informations sur le fichier robots.txt

Vous voulez en savoir sur le fichier robots.txt ? Les articles, guides et posts de blog (en anglais) qui suivent sauront répondre à vos questions :

Exemples amusants et originales de fichier robots.txt

Pour finir sur une note un peu moins sérieuse, voici quelques exemples de fichier robots.txt amusants et originales :

Si vous connaissez d’autres exemples intéressants de fichier robots.txt, n’hésitez pas à laisser un commentaire.

L'auteur : un expert à votre service

Nom : Geoffrey LEOST

Articles qui devraient vous intéresser

Quel hébergeur et hébergement Joomla 3.9 faut-il choisir ?

CET ARTICLE EST OBSOLETE Beaucoup de solutions d'hébergements s'offrent à nous et il n'est pas toujours...

Comment réaliser un formulaire de contact compatible RGPD

Nous allons aborder les différentes questions à se poser pour rendre le traitement d'un formulaire compatible avec...

cavo789

il y a environ 2026 ans
#445

This comment was minimized by the moderator on the site

Excellent article, clair et efficace. Merci !

babys24

il y a environ 2026 ans
#446

Bravo pour le tuto, très clair et bien expliqué (surtout la transcription du HTML:wink:-)

Il n'y a pas encore de commentaire pour cet article.