L’idée nous est venue un matin en buvant un café sur le balcon de Keyade. De toutes les idées farfelues que j’ai pu avoir avec mon collègue Rémi, il y en a bien quelques unes qui ont vu le jour. Mais comme à notre habitude, une fois le défi relevé, les obstacles surmontés et la solution finale peaufinée, nous nous sommes avérés incapables de sanctionner cette petite victoire par un article digne de ce nom sur un de nos blogs respectifs.
Fort de ma nouvelle résolution de dépoussièrer ce qui traine dans les fonds de tiroir, voici le fruit de ma collaboration avec Rémi Aubert pour obtenir une vision précise des robots qui visitent votre site et des URL qui sont crawlées en utilisant Google Analytics.
Rémi s’est occupé de décrire sur son blog comment fonctionnent les scripts et pour ma part je vais m’occuper de détailler comme mettre cela en place côté Google Analytics.
Comme la plupart des techniques dont je parle sur ce site, celle ci nécessite que vous créiez un nouveau profil, mais en choisissant l’option “pour un nouveau domaine” cette fois-ci. Cela permettra de générer une variante de votre identifiant Google Analytics (UA-XXXXXX-2) qui permettra de garder rigoureusement séparées les stats générées par les bots des visites générées par des êtres humains.
Vous pouvez spécifier n’importe quoi comme nom de domaine pour ce nouveau profil.
robots.votredomaine.com ferait très bien l’affaire car il vous permettra de mieux vous y retrouver à l’avenir si vous faites le suivi de beaucoup de sites au sein d’un même compte.
Le tout fonctionne avec trois fichiers que vous pouvez télécharger ici. Il suffit ensuite d’entrer 3 petites infos dans le fichier config.php, d’uploader les trois fichiers sur votre serveur dans un répertoire /analytics/ et de référencer le fichier analytics.php dans votre code source.
Customiser le config.php:
Vous rajoutez votre ID analytics du nouveau profil que vous avez créé à cette fin, le domaine de votre site et puis le hash du domaine que vous allez trouver en regardant la valeur du cookie _utma sur votre site:
Le cookie aura un contenu qui ressemblera à peu prêt à ceci: 58715258.281663908.1207124725.1229617107.1229703684.210
C’est donc cette première suite de chiffre “58715258″ qu’il faut spécifier dans le fichier de configuration.
Référencer le fichier dans votre code source:
Il suffit de rajouter en fin de header (ou ailleurs si vous préférez) un include php pour appeler le fichier analytics.php (à modifier si vous avez mis le fichier ailleurs que dans le root):
<?php include_once( dirname(__FILE__).'/analytics.php'); ?>
Ensuite, pour le profil en question, dans le rapport “moteurs de recherche” vous trouverez la liste des bots qui visitent votre site:
En cliquant sur l’un d’eux, là où se trouvent habituellement les mots-clés, vous trouverez les URLs de votre site qui ont effectivement été crawlées par le bot en question:
Puis finalement, en segmentant par le champ personnalisé (User-defined), vous verrez spécifiquant quelle machine est venue vous voir:
Les commentaires sont les bienvenus aussi bien ici que chez Rémi.


This thing has 38 Comments
C’est une tuerie
Alan marche au Red Bull? 2 posts en 2 jours, alertez la presse!
Intéressant comme technique merci
Alan t’as pas des infos sur l’API pour aller choper le data ?
Génial
Pour info, il manque une ” pour fermer le onclick sur l’image qui sert à linker le zip. Pour les vrais fans qui veulent lire Alan jusqu’à la dernière goutte on peut toujours aller dans le source de la page, mais il serait sans doute mieux de corriger cette petite erreur
Voilà ce qui manquait à Analytics! Merci pour ce script que je vais essayer très rapidement!
(HS : vous les faites comment vos captures style papier déchiré? je trouve ça très sympa)
well done Alan & co!
juste une question: un de tes rapports mentionne “831 visites via 89 mots-cles”! tu saisis mon interrogation?
A & bonnes fetes!
Merci pour ce script.
Ca dépote pas mal.
Je me servais de GA sans JS pour les confirmation des objectifs (après la banque), je n’avais jamais pensé a l’utiliser pour le tracking des bots !
Wahou merci mille fois pour ce script très intéressant. Je m’en vais tester ceci de ce pas !
Vraiment intéressant, voila un script que je vais utiliser et réutiliser.merci
Merci beaucoup, cela fonctionne parfaitement !
Salut Alan
C’est Noël qui t’inspire ?
Et cet intérêt pour le SEO … hummmm
C’est une énorme balle! Le script cartonne
Je viens de decouvrir votre blog. Très intéressant! Cela fait fait 6 mois que je me passionne de web analytics, et vous etes le premier blog francais qui a l’air d’etre assez riche en contenu. En tout cas votre dernier post, c’est un gros carton!
Bonjour
J’ai mis en place un système équivalent pour un de mes sites.
Personnellement, je ne mets pas le hash du site récupéré dans le cookie, mais uniquement un nombre aléatoire (comme indiqué sur le blog de l’auteur de la technique de base).
Par contre, je crois me rappeler que cela ne fonctionnait pas au départ et j’ai du “activer” le site (mettre le tags js sur le domaine correspondant puis le refermer pour éviter des problèmes pour les stats)
A priori, mes résultats sont bons, mais je n’ai pas vérifié.
J’aime beaucoup le user-defined pour connaitre le host. Ca ne prend pas trop de ressource pour le resolve ? (sur mon profil, j’ai 700k hits de robots / mois)
Pour continuer cette idée, j’avais pensé configurer le compte pour ajouter le domaine devant chaque url afin de regrouper l’ensemble des trackings de bot sur un seul profil analytics. Il me semble que c’est possible avec le principe de gestion multi sous domaine.
Sinon, j’ai pas trouvé de solutions concluantes pour savoir le % du site crawlé par un bot donné. Une idée de segment ou autre manip bizarre dans analytics ?
Merci d’avance et bonne année 2009 !
Salut,
Il existe un moyen de faire tourner la même chose sur une plate-forme ASP?
Bonjour,
J’ai suivi pas à pas le procédé, mais au final, Google Analytics ne parvient pas à “vérifier l’état” pour ce site. Est-ce que c’est normal avec cette manip, ou est-ce que ça veut dire que j’ai fait une erreur quelque part ?
Merci pour cet excellent astuce !!
A et désolé de jouer le newbie
Le lien de téléchargement fonctionne plus, très dommage ! ça avait l’air super.
Je ne m’attendais pas à un suivi des visites des robots avec un outil en Javascript ( GA ) vu que les robots ne savent pas interpréter du Javascript mais là avec votre technique… Vous me coupez le souffle et je vois que je suis effectivement un débutant sur Google Analytics !
Merci d’avoir partagé cette information !
Bonjour,
merci pour le tutorial.
Je me retrouve dans le même cas que Damien.
Je coince dès la première étape : une fois le profil créé, je clique sur le bouton “Continue”.
J’obtiens alors un script javascript “ga.js” à insérer .
Impossible donc de vérifier l’état du nouveau profil créé car il n’existe pas.
Pour la suite du tuto, j’ai bien compris la manip concernant le fichier “config.php”.
Merci d’avance de votre aide.
Installé…
RDV dans 24h pour voir ce que cela donne !
Merci Alan,
Mathieu (ex vivastreet)
Merci pour le script…
En l’implémentant, j’ai ajouté une option à la fonction curl pour plus de sécurité par rapport à la disponibilité de http://www.google-analytics.com : curl_setopt($cu, CURLOPT_CONNECTTIMEOUT, 1);
Bonjour, Super article, par contre un peu trop technique pour moi simple débutante… j’aimerai savoir si Google compte les visites des robots comme une visite sur le site. J’ai trouvé un IP qui lui appartient, donc je commence a douter de l’exclusion des robots qui nous crawl pas GA…
Merci
Bonsoir
Vraiment trop fort ! Excellent article !
Toute mes félicitations pour votre travail. je consulte régulièrement tous vos articles tous très intéressants.
amicalement
Bonjour,
Merci pour l’article mais le lien vers les fichiers est brisé !
cordialement.
Merci pour cette connaissance partagé, c’est hallucinant de voir tout ce que l’on peut faire a partir des outils google.
Très bonne solution, qui suite à mes recherches a même été reprises maintes fois outre-Atlantique
Cependant, un include PHP pose ses limitent pour les gros sites qui utilisent des fonctions de cache, il serait intéressent de l’intégrer dans un propre JS pour rendre l’outil encore plus pertinent. Developpeurs Javascripts, au boulot
Patrice Albertus : non, le mettre en JS ne servirait à rien; les moteurs ne l’interprètent pas.
Par contre, pour les scripts qui utilisent des fonctions de cache, il suffit de le mettre en amont de ces fonctions.
Good job folks !
Merci pour cet article vraiment intéressant ! Il va me rendre de grands services !
Je m’en vais l’essayer direct!
@Captain_torche : Merci pour l’info.
Les données sont vraiment très pertinentes, j’arrive maintenant à savoir à quel moment j’ai des crawl complet du site, et du coup j’en déduit l’efficacité des actions sur GWT ou autre
Trop bon, je l’essaye illico presto, merci pour cette info ! je reviens pour dire ce que j’en ai pensé…
Merci je vais l’essayer au plus vite !
Merci pour ce script très pratique.
Je viens de le mettre en place est tout fonctionne.
J’apprécie beaucoup ce script.
Différent de crawltrack et plus interessant que d’aller dans le webmaster tools!
Bonsoir, le script ne peux pas être télécharger ! il semble que le site est hors ligne
http://www.remiaubert.com/
très bon post merci!
Bonjour,
Où peut on trouver les fichiers ?
Ca m’a l’air vraiment bien comme méthode
Merci
Yeah ! Ca marche du tonnerre !
Merci pour le tuyau.
This thing has 7 Trackbacks
[...] Une bien jolie technique pour suivre l’activité des crawlers sur votre compte Google Analytics, et dans le détail : comment faire par Remi Aubert et le résultat chez Alan Boydell [...]
[...] Google Analytics & SEO: comment mesurer les visites des robots sur votre site par The Analytics Factor [...]
[...] Ces pages ne sont pas forcément évidentes
[...] Fonctionnement de la methode : http://www.remiaubert.com/post/maitrisez-votre-seo-referencement-naturel-grace-a-google-analytics/ et installation : http://www.web-analytics.fr/google-analytics-seo-comment-mesurer-les-vistes-des-robots-et-crawlers-sur-v... [...]
[...] pas de vérifier vos actions grâce aux outil de statistiques, le site Analytics.fr propose un hack de Google Analytics pour suivre les activités des Crawlers des moteurs de recherche sur votre [...]
[...] all your Analytics in one place. The solution to this issue seems to be have been solved by some creative gentlemen in France a couple of months ago. I do not to purport to know the complete efficiency of [...]
[...] went accross a french blog post some weeks ago on SEO analytics with Google Analytics, which is in my opinion one the biggest bomb I read regarding a Google Analytcs technique in the [...]