
Lorsque je compare deux segments, je suis souvent confronté au problème de savoir si l’un transforme réellement mieux que l’autre. Si par exemple je fais du A/B testing sur deux landing pages différentes pour un même mot-clé et que la première transforme à 2% et la deuxième à 2,4%, peut-on réellement être sûrs que cette dernière est « meilleure » que la première, ou une telle variation est-elle tout simplement normale et purement due au hasard?
Le tout dépend bien évidemment du volume en question. Si chaque landing page a reçu respectivement 100 visites chacune, les résultats sont naturellement moins probants que si chaque page en avaient reçues 100 000. Donc à supposer une différence sensible dans la performance des deux landing pages et un volume quelque part entre les deux, il est difficile à l’œil nu de savoir si la différence est suffisamment significative pour en tirer des conclusions ou non.
Guinness à la rescousse
Vous vous demandez sûrement quel est le rapport entre les trois choses que j’ai énoncées dans le titre. Il s’avère qu’un employé de la fameuse brasserie Guinness a énormément contribué à la discipline de la statistique. Un certain William Sealy Gosset s’est amusé à appliquer la rigueur de l’étude statistique de manière à permettre à la brasserie de sélectionner les récoltes d’orge optimales pour le brassage de la célèbre bière (ou plutôt stout pour les puristes) .
Un des grands problèmes auxquels il était confronté était de pouvoir déterminer si certaines variétés d’orge étaient réellement meilleures que d’autres alors qu’il devait se baser sur de très petits échantillons (vous commencez à voir, je l’imagine, en quoi sa problématique est similaire à la nôtre). Il a développé un test connu sous le nom de « Student’s t-test » qui permettait de déterminer si une différence sensible entre deux variétés était « statistiquement significative » ou non.
Précédemment, Guinness avait vu certains de ses secrets stratégiques publiés à la face du monde par un de ses employés. Déjà, au début du siècle, ils interdisaient donc à leurs employés de publier quoi que ce soit de leurs découvertes. C’est donc sous le pseudonyme de Student que nous connaissons le travail de Gosset.
Comment déterminer si un résultat est statistiquement significatif
Le t-test de Student est un peu sur-élaboré pour le problème qui nous préoccupe, mais le test selon la loi du χ² (khi-deux) est optimal en la circonstance. Prenons l’exemple du test de deux Landing Pages que je teste pour un mot-clé donné dans une campagne de Search Marketing avec les données suivantes :
On dit d’une différence de résultats qu’elle est statistiquement significative, lorsque la probabilité qu’elle ait lieu par chance est suffisamment faible que l’on puisse exclure l’hypothèse du hasard en toute confiance. Le test khi-deux nous dit, dans le cas présent, que la probabilité d’obtenir deux taux de conversion au moins aussi différents que ceux-ci, étant donné leurs volumes respectifs, est de 4,06%, ce qui nous donne un « degré de confiance » dans le fait que le résultat soit statistiquement significatif de 95,94%.
On peut donc affirmer en toute confiance que la Landing Page 2 a réellement un impact positif sur les conversions.
La pratique la plus courante est de considérer que tout résultat au dessus de 95% peut être considéré comme étant probant au delà du tout doute raisonnable. En deçà, la différence n’est pas significative.
Appliquez la rigueur statistique à votre analyse !
J’ai créé un petit fichier Excel que vous pouvez téléchargez à votre guise qui vous permet de rentrer vos données pour mettre ce test en pratique. Il est très utile pour écarter le doute dans votre analyse ou alors simplement pour montrer une certaine rigueur de méthode lorsque l’on présente des résultats à sa hiérarchie.
Comme quoi, la rigueur statistique ne messied pas forcément à l’analyse des performances de campagnes marketing. Mais pour parler de choses réellement sérieuses, un bar qui s’appelle “le Dock” dans la rue Louis le Grand à côté d’Opéra sert la Guinness pour 4 euros la pinte avant 20h. Quiconque veut débattre de ce billet de manière plus approfondie, à vous de déterminer le soir et l’heure pour un tel rendez-vous dans ce lieu on ne peut plus approprié.



This thing has 15 Comments
Pas mal, pas mal du tout même. On se voit au dock pour la Guiness ?
Je suis motivé pour la “Alan Party #1″ demain ou mercredi soir ?
Deal !
Guinness et Analytics:
Mardi 5 février 2008 @ Le Dock, 25, Rue Louis Le Grand, 75002 Paris
19h00, tenue de buveur de Guinness souhaitée, confirmation ici SVP
J’arriverais surement un tout petit peu en retard mais je serais présent
Cool ! Excellente initiative Alan

Y a un baby au Dock ?
Je passerai surement !
Interessant meme si j’ai pas compris comment tu calculais ton 4,06%.
Une petite explication car j’habite à 500km de “le Dock”.
Hey Alan,
Quand tu veux pour une Guiness au Dock, demain soir je ne peux pas, c’est l’anniv de mon mec, mais une prochaine fois.
Top ton blog
See u
Nickel la soirée, ce fut très interessant et la bière fort bonne
On remet ca quand tu veux
Je confirme bien sympa cette petite soirée, on remet ça en effet quand tu veux mais un vendredi la prochaine fois
Il faudra effectivement qu’on se la refasse
mais dans un peu de temps. j’ai un peu mal au crâne là
Loupé la soirée…… aïe !
Je viens de découvrir ton blog. j’adore surtout que 2008 est l’année où j’ai décidé de devenir un pro du urchin, fantastique outil.
C’est quand la prochaine ?
Très intéressant comme article et merci pour la bonne adresse.
C’est quand même un casse tête les landing pages pour toujours améliorer les conversions. Le tout est de donner au visiteur ce qu’il recherche et c’est là tout l’art d’un bon site et d’une bonne prospection pour une entreprise.
Salut Alan,
bon post. Il est rare de voir des gens en web analytics qui se basent sur des tests statistiques pour tester l’apport réel d’une modification. Ceci dit, le T-Test de Student n’est peut-être pas le test le plus robuste lorsque tu testes deux échantillons aux n différents. J’avais effectué une série de T-test dans mon projet de mémoire de maîtrise avec des n différents et il s’est avéré que la méthode Sattherwaite est plus robuste, même si les résultats sont peu perceptibles.
J’ai une question pour toi. Nous sommes à tester trois landing page différentes pour une client en B2B et je tente d’établir le nombre de visites et de conversions nécessaires sur chaque page afin qu’ils soient statistiquement significatif. As-tu des recommandations?
Bonjour,
Je viens de découvrir ton blog et je me rend compte que Julien (Coquet) a mystifié tout le monde avec son soi-disant premier Web Analytics Wednesday en France puisque en réalité, sans le savoir (peut-être) vous aviez organisé, de façon très impromptu, le premier WAW en France. Ok, les esprits chagrin diront que le 5 février était un mardi mais même E. Peterson n’est pas strict sur le sujet…
Ben alors Jean Marc, on se réveille après la bataille?
Tu as bien fait le premier WAW en Suisse toi, non?
Et puis on va pas se battre parceque maintenant c’est fait
One Trackback
[...] parlé dans un précédent billet de l’intérêt évident qu’il pouvait y avoir à utiliser des tests pour déterminer si [...]