Comprendre le fichier Robots.txt

Le saviez-vous , le fichier robot.txt est un élément de base du référencement, le fichier indique aux moteurs de recherche les pages qui  peuvent ou qui ne peuvent pas être crawlées et indexées. Le plus souvent il est utilisé pour limiter les espaces que vous souhaitez référencer et ceux que vous ne souhaitez pas. Par exemple, la page panier, n’a pas d’intérêt. De même si vous avez plusieurs centaines de pages avec seulement des photos/produits et qui sont très pauvres en texte, vous préférerez peut être que Google n’indexe pas toutes ces pages pour qu’il garde une meilleur appréciation globale de votre site.

Le fichier robots.txt est placé à la racine du site web et tout moteur de recherche commence sa visite sur le site par ce fichier.
Tout webmaster doit bien comprendre le rôle et le fonctionnement de ce fichier car une utilisation erronée de celui-ci peut nuire au référencement d’un site web tout en provoquant des pertes de positions….

Une des dernières nouvelles concernant le rôle et l’utilisation du fichier robots.txt nous rappelle que celui-ce ne doit pas dépasser 500Ko…
Google ne lira que les premiers 500 Ko et ignorera tout dépassement de ce fichier. Mais cette limite n’est pas du tout un inconvénient pour les webmaster, étant donné le fait qu’il est quasi impossible d’attendre cette limite. Cela étant dit, il est difficile même avec beaucoup de volonté d’atteindre ce score en poids pour ce fichier, vu que les quelques lignes listant les répertoires à ne pas indexer et l’adresse du fichier Sitemap.xml ne font que quelques kilo-octets !

La fonction du robots.txt

robots.txt

Une autre pratique mais beaucoup moins connue car peu utile et encore moins en France, le fichier peut vous permettre de lister les moteurs de recherche que vous souhaiteriez volontairement boycotter. Pratique qui n’a guère de sens à moins d’avoir de réelle motivation pour n’apparaître que dans certains moteurs.

Enfin, autres pratiques qui est à la mode chez tout le monde maintenant, le fichier peut servir à volontairement retirer de l’index de Google des pages, ceci permet de ne pas diluer la qualité du site et offrirait une meilleure appréciation globale du site.