Voici un cas intéressant. Régulièrement lorsque nous prenons la gestion d’un site, nous faisons le tour du propriétaire. Parmi les éléments que nous vérifions figure le nombre de pages que le site possède dans l’index de Google. Ceci permet de ce faire une idée du volume de pages présentes sur le site et dans une certaine mesure “appréciées” par le moteur de recherche. C’est une démarche tout à fait habituel pour une agence de référencement. Cela permet d’éliminer facilement un nombre important d’entrées dupliquées dans la base de donnée du moteur de recherche (ce qui n’est jamais vraiment souhaitable!).
Le cas pratique décrit dans ce billet va vous expliquer :
- comment déterminer le nombre de pages indexées de votre site.
- comment identifier le problème si le score obtenu est trop différent de la réalité.
- comment corriger simplement la situation avec les outils proposés par Google.
Comment déterminer le nombre de pages indexées ?
La commande est très connu et très simple à exploiter. Elle consiste à interroger Google sur l’url en question en plaçant le paramètre “site:” devant la requête, et cela se présente ainsi :
Notre article est relativement jeune par rapport au site, et le résulta retourné n’est pas très élevé. Ce qui compte ici c’est que ce score correspondent parfaitement avec notre nombre de page réellement en ligne. Supposons pour l’exemple que le score obtenu pour notre site était de 545 pages indexées, soit environ 10 fois plus que la réalité.
Dans ce cas, la méthode est simple, elle va consister à obliger Google à nous montrer la liste des URL qu’il a indexé, ainsi nous serons obligé de voir et nous pourrons donc comprendre ce qui se passe. Dans ce cas, refaite la même commande “site:” et ajoutez après l’url un morceau de phrase ne figurant sur la page d’accueil.
Google va vous retourner probablement qu’un seul résultat, dans ce cas prenez le soin de détecter le message du bas de page :
Pour limiter les résultats aux pages les plus pertinentes (total : 1), Google a ignoré certaines pages à contenu similaire. Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
Cliquez sur la mention “relancer la recherche en incluant les pages ignorées”. Vous avez maintenant toutes les urls relatives à votre page d’accueil avec les variantes qui génèrent le sur-nombre de résultat. Si votre cas de figure est le cas le plus classique, vous allez découvrir des urls qui sont complétées avec des paramètres d’url, cela se matérialise sous cette forme :
http://www.votre-domaine.fr/index.php?id_product=405&page=12345&order=asc
http://www.votre-domaine.fr/index.php?id_lang=802&page=123&order=desc
http://www.votre-domaine.fr/index.php?id_cms=456&page=124&order=desc
etc…
Ces paramètres appellent des variantes qui peuvent :
- soit influer sur le contenu de la page (dans ce cas c’est un paramètre dynamique)
- soit ne pas avoir d’influence sur le contenu de la page (dans cette situation, le plus souvent il s’agira de paramètre permettant des suivis statistiques (parfois utiles, parfois inutiles)).
Pour les sortir de l’index de Google et ainsi vous débarrasser de toutes ces entrées dupliquées, il existe un moyen simple dans un outil que vous connaissez tous très bien, votre Google Webmaster Tools ! à la rubrique / configuration / Paramètres d’url.
ou alors si le paramètres d’url affecte le contenu de la page de nouvelles options apparaissent :
Il ne vous reste plus qu’à attendre le prochain passage du moteur de recherche et réaliser à nouveau la même opération de comptage pour vous assurer que les urls indésirables ont bien disparues. Nous vous invitons à identifier clairement, et facilement UN paramètre, et à travailler autour de ce dernier en évitant de vouloir TOUT faire en une seule fois.