Robots.txt expliqué

Mise à jour : 2022-07-26 / Article par : Jerry Low

Le fichier robots.txt est un simple document texte contenant les instructions des robots des moteurs de recherche. Il leur indique quelles pages explorer et lesquelles éviter. C'est comme un signe pour les bots disant, "venez ici pour les règles dont vous avez besoin pour utiliser ce site Web."

Le but de ces fichiers est d'aider les moteurs de recherche à déterminer la meilleure façon d'explorer votre site. Cela permet de réduire la charge du bot et de votre serveur. Après tout, les demandes de données inutiles ne profiteront à personne de manière significative.

Par exemple, il n'y a aucune raison pour Googlebot (ou tout autre bot) pour afficher autre chose que le message le plus récent sur votre blog ou les messages qui ont été mis à jour.

Fonctionnement du fichier Robots.txt

La façon la plus simple de comprendre comment cela fonctionne est de considérer votre site Web comme un invité dans votre maison. Vous avez toutes ces choses que vous voulez montrer sur vos murs, mais vous ne voulez pas que les invités errent et touchent des choses. Alors, vous leur dites : « Hé ! Restez en dehors de cette pièce, s'il vous plaît.

C'est ce que fait le fichier robots.txt - il indique aux moteurs de recherche où ils doivent aller (et où ils ne doivent pas). Vous pouvez réaliser ce miracle avec des instructions simples qui suivent certaines règles prédéfinies.

Chaque site Web ne peut avoir qu'un seul fichier robots.txt et doit suivre ce nom exact - ni plus, ni moins.

Ai-je besoin d'un fichier Robots.txt ?

La reponse courte est oui. Vous devriez avoir un fichier robots.txt sur votre site Web.

La réponse la plus longue est que vous devez savoir comment robots des moteurs de recherche explorera et indexera votre site, puis écrira votre fichier robots.txt en conséquence.

En plus de garder les informations sensibles hors de portée des spammeurs et des pirates, disposer d'un fichier robots.txt correctement structuré et maintenu peut aider à améliorer le classement de votre site dans les résultats des moteurs de recherche.

Lectures pertinentes

Comment créer votre fichier Robots.txt

Le fichier robots.txt commence sa vie comme un simple document texte vierge. Cela signifie que vous pouvez en créer un avec un outil aussi simple qu'un éditeur de texte brut comme MS Notepad. Vous pouvez également utiliser l'éditeur de texte dans votre hébergement web panneau de configuration, mais la création du fichier sur votre ordinateur est plus sûre.

Une fois que vous avez créé le document, il est temps de commencer à le remplir avec des instructions. Vous avez besoin de deux choses pour que cela se produise. Tout d'abord, vous devez savoir ce que vous voulez que le fichier robots.txt indique aux bots. Ensuite, vous devez comprendre comment utiliser les instructions que les robots peuvent comprendre.

Partie 1 : Ce que le fichier Robots.txt peut faire

  • Autoriser ou bloquer des bots spécifiques
  • Contrôlez les fichiers que les bots peuvent explorer
  • Contrôlez les répertoires que les bots peuvent explorer
  • Contrôler l'accès aux images
  • Définir votre sitemap

Et plus encore.

Partie 2 : Comprendre le fonctionnement de la syntaxe Robots.txt

Beaucoup de gens sont confus lorsqu'ils regardent des exemples de robots.txt parce que le contenu ressemble à du jargon technique. C'est raisonnablement précis pour la personne moyenne. La clé pour comprendre robots.txt est de penser comme un ordinateur.

Les ordinateurs ont besoin d'instructions pour fonctionner et ils traitent les choses en fonction de celles-ci. Il en est de même pour les robots. Ils lisent les instructions une ligne à la fois. Chacune de ces lignes doit suivre un format spécifique.

Voici quelques commandes courantes pour le fichier robots.txt ;

CodeAction
Agent utilisateur : Googlebot-newsAllow : /
Agent utilisateur : *Interdire : /
Autoriser uniquement le robot d'actualités de Google à explorer votre site Web
Agent utilisateur : Googlebot-ImageDisallow : /images/dogs.jpgEmpêchez l'image smiley.jpg de s'afficher dans les résultats de recherche d'images Google.
Agent utilisateur : GooglebotDisallow : /*.gif$Empêchez le bot de Google d'explorer n'importe quel fichier image avec l'extension .gif.

Vous pouvez obtenir une liste plus complète d'instructions pour votre fichier robots.txt sur Documentation développeur de Google.

Le fichier Robots.txt de Facebook.
Par exemple, voici Robots.txt de Facebook fichier.
Fichier Robots.txt de Google.
Et voici Robots.txt de Google fichier.

Meilleures pratiques pour Robots.txt

Suivez les instructions pour robots.txt, ou les choses peuvent mal tourner pour votre site Web. (La source: Google)

Alors que, à certains égards, robots.txt vous permet de personnaliser le comportement du bot, les exigences pour que cela fonctionne peuvent être assez rigides. Par exemple, vous devez placer le fichier robots.txt dans le répertoire racine de votre site Web. Cela signifie généralement public_html ou www.

Bien que certaines règles soient négociables, il est préférable de comprendre certaines directives standard ;

Surveillez votre commande

Les instructions du fichier robots.txt ont une priorité séquentielle. Cela signifie que les instructions en conflit seront par défaut la première instance du fichier. C'est comme comparer une décision d'un tribunal d'État à une décision d'un tribunal fédéral.

Soyez détaillé

Lors de la création d'instructions, soyez aussi précis que possible avec vos paramètres. Les robots ne négocient pas, alors dites-leur précisément ce qui doit se passer.

Les sous-domaines sont possibles

Cependant, les règles pour le fichier robots.txt dans chaque sous-domaine ne s'appliqueront qu'au sous-domaine où réside le fichier.

Vérifier le fichier

Construire et vider un fichier robots.txt peut être une recette pour un désastre. Assurez-vous que les règles ou les instructions que vous ajoutez fonctionnent avant de laisser tomber les choses.

Ne rien indexer

Google dit de ne pas le faire dans robots.txt ; donc ça doit être vrai.

Réflexions finales

À proprement parler, vous n'avez pas besoin d'un fichier robots.txt. Cela est particulièrement vrai pour les sites Web plus petits ou statiques qui n'ont pas beaucoup de contenu à explorer. Cependant, les sites Web plus importants trouveront robots.txt indispensable pour réduire les ressources perdues par les robots d'exploration Web. Cela vous donne un bien meilleur contrôle sur la façon dont les bots voient votre site Web.

En savoir plus

À propos de Jerry Low

Fondateur de WebHostingSecretRevealed.net (WHSR) - une critique d'hébergement approuvée et utilisée par les utilisateurs de 100,000. Plus de 15 ans d'expérience dans l'hébergement web, le marketing d'affiliation et le référencement. Contributeur à ProBlogger.net, Business.com, SocialMediaToday.com, et plus encore.