Article

16min lecture

A/B Testing : méthode fréquentiste ou bayésienne ?

Dans le secteur de l’AB testing, il existe deux méthodes majeures pour interpréter les résultats d’un test : fréquentiste ou bayésienne. 

Ces termes font référence à deux méthodes de statistiques inférentielles. Des débats houleux visent à déterminer la « meilleure » solution mais chez AB Tasty, nous savons quelle méthode a fini par gagner nos faveurs.

Bayesian vs frequentist methods in ab testing
Source

Que vous soyez à la recherche d’une solution d’AB testing, que vous découvriez le domaine ou que vous cherchiez simplement à mieux interpréter les résultats d’une expérience, il est essentiel de comprendre la logique de chaque méthode. Cela vous aidera à prendre de meilleures décisions commerciales et/ou à choisir la meilleure plateforme d’expérimentation. 

Dans cet article, nous allons évoquer :

[toc]

Définition des statistiques inférentielles

Les méthodes fréquentistes et bayésiennes appartiennent à la branche des statistiques inférentielles. Contrairement aux statistiques descriptives (qui comme leur nom l’indique, décrivent exclusivement des événements passés), les statistiques inférentielles visent à induire ou à anticiper des événements futurs. De la version A ou la version B, laquelle aura un meilleur impact sur un KPI X ? 

À savoir : Pour entrer un peu plus dans les détails, techniquement, les statistiques inférentielles ne consistent pas à anticiper au sens temporel du terme, mais à extrapoler ce qu’il se passera en appliquant les résultats à un plus grand nombre de participants. Que se passe-t-il si nous proposons la version B gagnante à l’ensemble de l’audience de mon site web ? La notion d’événements « futurs » est bien présente dans le sens où nous devrons effectivement implémenter la version B demain, mais nous n’utilisons pas les statistiques pour « prédire l’avenir » au sens strict.

Prenons un exemple. Imaginons que vous soyez fan de sports olympiques et que vous vouliez en apprendre davantage sur une équipe de natation masculine. Plus précisément, combien mesurent les membres de l’équipe ? Grâce aux statistiques descriptives, vous pourriez déterminer quelques données intéressantes à propos de l’échantillon (autrement dit, l’équipe) :

  • La taille moyenne de l’échantillon
  • L’étalement de l’échantillon (variance)
  • Le nombre de personnes en dessous ou au-dessus de la moyenne
  • Etc.

Cela peut répondre à vos besoins immédiats mais le périmètre est relativement limité. Les statistiques inférentielles vous permettent d’induire des conclusions à des échantillons trop importants pour être étudiés par une approche descriptive. Si vous vouliez connaître la taille moyenne de tous les hommes sur la planète, il serait impossible d’aller collecter toutes ces données. En revanche, vous pouvez utiliser les statistiques inférentielles pour induire cette moyenne à partir de différents échantillons, plus limités.

On peut induire ce type d’information par l’analyse statistique de deux manières : à l’aide des méthodes fréquentiste et bayésienne.

Définition des statistiques fréquentistes

L’approche fréquentiste vous est peut-être plus familière car elle est plus fréquemment utilisée par les logiciels d’A/B testing (sans vouloir faire de mauvais jeu de mot…). Elle est également souvent enseignée dans les cours de statistiques en études suppérieures.

Cette approche vise à prendre une décision à propos d’une expérience unique.

Avec l’approche fréquentiste, vous partez de l’hypothèse selon laquelle il n’y a pas de différence entre la version A et la version B du test. Au terme de votre expérience, vous obtiendrez ce que l’on appelle la P-valeur (valeur de probabilité).

La « pValue » (valeur-p) désigne la probabilité d’obtenir des résultats au moins aussi extrêmes que les résultats observés, en partant du principe qu’il n’y a pas de (réelle) différence entre les expériences. 

En pratique, la valeur-p est interprétée pour signifier la probabilité qu’il n’y a aucune différence entre vos deux versions. (C’est pour cela qu’elle est souvent “inversée” en utilisant la formule basique : p = 1-valeur-p, afin d’exprimer la probabilité qu’il existe une différence).

Plus la valeur-p est faible, plus élevées sont les chances qu’il existe effectivement une différence, et donc que votre hypothèse est fausse.

Avantages de l’approche fréquentiste :

  • Les modèles frĂ©quentistes sont disponibles dans n’importe quelle bibliothèque de statistiques pour tous les langages de programmation. 
  • Le calcul des tests frĂ©quentistes est ultra-rapide.

Inconvénients de l’approche fréquentiste :

  • La valeur-p est uniquement estimĂ©e Ă  l’issue d’un test et non pendant. Regarder rĂ©gulièrement les donnĂ©es (data peeking) avant la fin d’un test gĂ©nère des rĂ©sultats trompeurs car il s’agit alors de plusieurs expĂ©riences (une nouvelle Ă  chaque fois que vous examinez les donnĂ©es) quand le test est conçu pour une seule expĂ©rience. 
  • Vous ne pouvez pas connaĂ®tre le rĂ©el intervalle de gain d’une variation gagnante.

Définition des statistiques bayésiennes

L’approche bayésienne explore les choses sous un angle un peu différent. 

Son origine remonte à un charmant mathématicien britannique du nom de Thomas Bayes et à son éponyme théorème de Bayes.

Bayes Theorem
Source

L’approche bayésienne permet d’inclure des informations antérieures (« a priori ») à votre analyse actuelle.  Cette méthode fait intervenir trois concepts qui se recoupent :

  • Un a priori, Ă  savoir une information obtenue d’une expĂ©rience prĂ©cĂ©dente. Au dĂ©but de l’expĂ©rience, nous utilisons un a priori « non-informatif » (comprendre « vide »). 
  • Des preuves, c’est Ă  dire les donnĂ©es de l’expĂ©rience actuelle.
  • Un posteriori, soit l’information actualisĂ©e obtenue Ă  partir de l’a priori et des preuves. C’est ce que l’on obtient par l’analyse bayĂ©sienne.

Par nature, ce test peut être utilisé pour une expérience en cours. Lors du data peeking, les données observées peuvent servir d’a priori, les données à venir seront les preuves, et ainsi de suite. Cela signifie que le « data peeking » s’intègre naturellement à la conception du test. Ainsi, à chaque data peeking, le posteriori calculé par l’analyse bayésienne est valide.

L’approche bayésienne permet aux professionnels du CRO d’estimer le gain d’une variation gagnante : un élément fondamental de l’A/B testing dans un contexte business. Nous reviendrons plus tard sur ce point.

Avantages de l’approche bayésienne :

  • Elle permet d’observer les donnĂ©es pendant un test. Ainsi, vous pouvez stopper le traffic si une variation Ă©choue ou bien passer plus rapidement Ă  une variation gagnante Ă©vidente. 
  • Elle vous permet de connaĂ®tre le rĂ©el intervalle de gain d’un test gagnant.
  • Par nature, elle Ă©limine souvent l’implĂ©mentation de faux positifs.

Inconvénients de l’approche bayésienne :

  • Elle nĂ©cessite une boucle d’échantillonnage qui utilise une charge CPU non-nĂ©gligeable. Ce n’est pas un problème pour l’utilisateur mais cela peut potentiellement poser problème Ă  plus grande Ă©chelle.

Approche bayésienne vs. fréquentiste

 

Alors, quelle est la « meilleure » méthode ?

Commençons par préciser que ces méthodes statistiques sont toutes les deux parfaitement valables. Mais chez AB Tasty, nous avons une nette préférence pour l’approche bayésienne. Pourquoi ?

La mesure du gain

L’une des raisons principales est que les statistiques bayésiennes vous permettent d’évaluer l’ampleur du gain réel d’une variation gagnante, plutôt que de savoir uniquement qu’il s’agit de la gagnante.

Dans un cadre business, il s’agit d’une distinction cruciale. Lorsque vous effectuez votre test A/B, ce que vous êtes réellement en train de décider, c’est si vous devez passer de la variation A à la variation B. Il ne s’agit pas de choisir A ou B en partant de zéro. Il faut donc prendre en compte :

  • Le coĂ»t de mise en oeuvre du passage Ă  la variation B (temps, ressources, budget)
  • Les coĂ»ts additionnels liĂ©s Ă  la variation B (coĂ»ts de la solution, licences…)

Prenons un exemple : imaginons que vous commercialisez un logiciel B2B et que vous exécutez un test A/B sur votre page tarifs. La variation B comprenait un chatbot, absent dans la variation A. La variation B a surperformé par rapport à la A mais pour l’implémenter, il faudra deux semaines à un développeur pour intégrer le chatbot à votre workflow de lead nurturing. En outre, il faudra dégager X euros de budget marketing pour payer la licence mensuelle du chatbot.

via GIPHY

Il faut être sûr de votre calcul et qu’il est plus rentable d’opter pour la version B en comparant ces coûts avec le gain estimé par le test. C’est exactement ce que permet l’approche bayésienne.

Prenons un exemple en observant l’interface de reporting AB Tasty.

Dans ce test fictif, nous mesurerons trois variations contre une version d’origine en prenant les « Clics CTA » comme KPI.

AB Tasty reporting

On peut constater que la grande gagnante semble être la variation 2, avec un taux de conversion de 34,5 %, comparé à 25 % pour la version d’origine. Mais en regardant à droite, nous pouvons aussi voir l’intervalle de confiance de ce gain. Autrement dit, nous tenons compte du meilleur et du pire scénario.

Le gain médian de la variation 2 s’élève à 36,4 %. Ici le gain le plus faible possible est + 2,25 % et le plus élevé, 48,40 %. Il s’agit des bornes de gain les plus faibles et les plus élevés que vous pouvez obtenir dans 95 % des cas. Si l’on décompose les choses davantage :

  • Il y a 50 % de chances que le pourcentage de gain percentage soit supĂ©rieur Ă  36,4 % (la mĂ©diane) 
  • Il y a 50 % de chances qu’il soit infĂ©rieur Ă  36,4 %.
  • Dans 95 % des cas, le gain sera dans la fourchette entre + 2,25 % et + 48,40 %. 
  • Il reste 2,5 % de chances que le gain soit infĂ©rieur Ă  2,25 % (le fameux cas du faux positif) et 2,5% de chances qu’il soit supĂ©rieur Ă  48,40 %.

Ce niveau de granularité peut vous aider à choisir de déployer ou non la variation gagnante d’un test sur votre site internet. Les extrémités les plus faibles et les plus élevées de vos marqueurs de gain sont positives ? Fantastique ! L’intervalle de confiance est étroit, donc vous êtes convaincu d’un gain élevé ? Implémenter la version gagnante est alors probablement la bonne décision. Votre intervalle est large mais les coûts d’implémentation sont bas ? Là encore, il n’y a pas de mal à se lancer. En revanche, si votre intervalle est large et que les coûts d’implémentation sont conséquents, il vaut sans doute mieux attendre d’avoir davantage de données pour réduire cet intervalle. Chez AB Tasty, nous recommandons généralement :

  • D’attendre avant d’avoir enregistrĂ© au moins 5 000 visiteurs uniques par variation ;
  • De faire durer le test au moins 14 jours (deux cycles commerciaux) ;
  • D’attendre d’avoir atteint 300 conversions sur votre objectif principal.

Data peeking

Les statistiques bayésiennes offrent un autre avantage : grâce à elles, vous pouvez jeter un coup d’œil aux résultats de vos données pendant un test (sans en abuser tout de même !).

Imaginons que vous travaillez pour une grande plateforme d’e-commerce et que vous effectuez un test A/B concernant une nouvelle offre promotionnelle. Si vous remarquez que la variation B affiche des résultats pitoyables (vous faisant perdre beaucoup d’argent au passage), vous pouvez stopper le test immédiatement !

A l’inverse, si votre test surperforme, vous pouvez transférer tout le trafic de votre site web vers la version gagnante plus rapidement que si vous employiez la méthode fréquentiste. 

C’est la logique précise qui gouverne notre fonctionnalité d’allocation dynamique de trafic… qui n’aurait jamais été possible sans M. Thomas Bayes !

Allocation dynamique de trafic

Si nous nous arrêtons rapidement sur le sujet de l’allocation dynamique de trafic, nous verrons qu’elle est particulièrement utile dans un cadre commercial ou dans des contextes instables ou limités en termes de temps.

AB Tasty dynamic traffic allocation bayesian

L’option d’allocation dynamique de trafic dans l’interface AB Tasty

L’allocation dynamique de trafic (automatisée) permet essentiellement de trouver l’équilibre entre l’exploration et l’exploitation des données. Les données du test font l’objet d’une « exploration » suffisamment approfondie pour être certain de la conclusion et elles sont « exploitées » suffisamment tôt pour de ne pas perdre inutilement des conversions (ou tout autre KPI). Il faut souligner que ce processus ne se fait pas manuellement : ce n’est pas une personne en chair et en os qui interprète ces résultats et prend la décision. Au lieu de cela, un algorithme va faire ce choix pour vous automatiquement.

Dans la pratique, les clients AB Tasty cochent la case correspondante et choisissent leur KPI principal. L’algorithme de la plateforme déterminera alors s’il faut rediriger la majorité de votre trafic vers une variation gagnante et du moment opportun pour le faire.

Ce type d’approche est particulièrement utile dans les situations suivantes :

  • Pour optimiser les micro-conversions dans un dĂ©lai court
  • Lorsque la durĂ©e du test est courte (par exemple, lors d’une promotion pendant les fĂŞtes)
  • Lorsque votre page cible gĂ©nère peu de trafic
  • Lorsque vous testez plus de six variations

S’il faut bien réfléchir au moment opportun pour utiliser cette option, il est particulièrement utile de l’avoir sous le coude.

Les faux positifs

Tout comme les méthodes fréquentistes, les statistiques bayésiennes comportent un risque de ce que l’on appelle le faux positif.

Comme vous pouvez le deviner, un faux positif se produit lorsque le résultat d’un test indique qu’une variation affiche une amélioration, alors que ce n’est pas le cas. En matière de faux positifs, il arrive souvent que la version B donne les mêmes résultats que la version A (et non pas qu’elle soit moins performante que la version A).

Loin d’être inoffensifs, les faux positifs ne sont certainement pas une raison d’abandonner l’A/B testing. Vous pouvez plutôt ajuster votre intervalle de confiance pour l’adapter au risque lié à un potentiel faux positif.

La probabilité de gain par les statistiques bayésiennes

Vous avez probablement déjà entendu parler de la règle de probabilité de gain de 95 %.

Autrement dit, on considère qu’un test est statistiquement significatif lorsque l’on atteint un seuil de certitude de 95 % : vous êtes sûr à 95 % que votre version B performe comme indiqué, mais il existe toujours 5 % de risques que ce ne soit pas le cas.

Pour de nombreuses campagnes marketing, ce seuil de 95 % est probablement suffisant. Mais si vous menez une campagne particulièrement importante dont les enjeux sont considérables, vous pouvez ajuster votre seuil de probabilité de gain pour qu’il soit encore plus précis : 97 %, 98 % ou même 99 %, excluant ainsi pratiquement le moindre risque de faux positif.

Si l’on peut penser qu’il s’agit d’une valeur sûre (et c’est la bonne stratégie pour les campagnes de premier plan), il ne faut pas l’appliquer à tout va.

VoilĂ  pourquoi :

  • Pour atteindre ce seuil plus Ă©levĂ©, vous devez attendre les rĂ©sultats plus longtemps, ce qui vous laisse moins de temps pour rĂ©colter les bĂ©nĂ©fices d’une issue positive.
  • De manière implicite, vous n’obtiendrez un gagnant qu’avec un gain plus important (ce qui est plus rare), et vous abandonnerez les amĂ©liorations mineures qui peuvent quand mĂŞme changer la donne.
  • Si vous avez un faible volume de trafic sur votre page web, vous voudrez peut-ĂŞtre envisager une approche diffĂ©rente.

Les tests bayésiens limitent les faux positifs

Il faut également garder en tête que puisque l’approche bayésienne fournit un intervalle de gain et que les faux positifs n’apparaissent virtuellement que légèrement meilleurs qu’en réalité, vous n’avez alors que très peu de chances d’implémenter un faux positif.

Prenons un scénario courant pour illustrer ce propos. Imaginons que vous exécutiez un test A/B pour vérifier si le nouveau design d’une bannière promotionnelle augmente le taux de clics sur le CTA. Votre résultat indique que la version B est plus performante avec une probabilité de gain à 95 % mais le gain est infime (amélioration médiane d’1 %). Même s’il s’agit d’un faux positif, il y a peu de chances que vous déployez la version B de la bannière sur l’ensemble de votre site car les ressources nécessaires à son implémentation n’en vaudraient pas la peine.

Mais, comme l’approche fréquentiste ne fournit pas cet intervalle de gain, vous seriez plus tenté de mettre en place le faux positif. Certes, ce ne serait pas la fin du monde : la version B offre certainement la même performance que la version A. Cependant, vous gaspilleriez du temps et de l’énergie sur une modification qui ne vous apporterait aucune valeur ajoutée.

Ce qu’il faut retenir ? Si vous jouez la carte de la sécurité et que vous attendez un seuil de confiance trop élevé, vous passerez à côté de plusieurs petits gains, ce qui serait également une erreur.

En conclusion

Alors, quelle approche est la meilleure : fréquentiste ou bayésienne ?

Comme nous l’avons déjà évoqué, les deux approches sont des méthodes statistiques parfaitement valables.

Mais chez AB Tasty, nous avons choisi l’approche bayésienne car nous estimons qu’elle aide nos clients à prendre de meilleures décisions commerciales. Elle permet également une plus grande flexibilité et une maximisation des bénéfices (allocation dynamique de trafic). En ce qui concerne les faux positifs, ils peuvent survenir que vous optiez pour l’approche fréquentiste ou bayésienne… mais il y a de moins de risque que vous vous y laissiez prendre avec cette dernière. Au bout du compte, si vous cherchez une plateforme d’A/B testing, l’important est d’en trouver une qui vous fournira des résultats fiables et facilement interprétables.

Article

9min lecture

E-commerce : quels sont les jours et les heures “chaudes” ?

Dans le domaine de l’amĂ©lioration des conversion (CRO), on Ă©tudie peu l’aspect temporel des donnĂ©es que l’on manipule. En pratique, les expĂ©riences sont toujours effectuĂ©es simultanĂ©ment, justement pour s’abstraire de toute fluctuation temporelle. Les tests statistiques utilisĂ©s reflètent bien cette approche : seules les sommes des nombres de visiteurs et de conversions effectuĂ©es sur la pĂ©riode sont utilisĂ©s pour identifier la variation gagnante. Cependant, l’aspect temporel de ces donnĂ©es est très intĂ©ressant Ă  Ă©tudier. Focus sur les quelques insights qui permettent de comprendre le pourquoi de certaines règles empiriques d’expĂ©rimentation. Et comme le dit l’adage : “Le temps, c’est de l’argent”.

Comment exploiter les données ?

Nous avons exporté un mois de données de conversions (c’est-à-dire d’achats) d’une plateforme e-commerce, et notamment l’heure à laquelle ces achats ont eu lieu. Plus exactement, la donnée utilisée est ce ce qu’on appelle le timestamp ou horodatage en français : on sait donc très précisément quand la vente a eu lieu et accessoirement quel appareil a été utilisé (ordinateur de bureau, tablette ou mobile).  Pour le moment, seule la colonne “time” nous intéresse, on considérera donc l’ensemble des devices. Il s’agit d’une seule enseigne, mais la plupart des sites similaires présentent des résultats globalement identiques.

Pour rendre ces donnĂ©es plus facilement lisibles, on utilise la technique de “fenĂŞtre glissante”. On dĂ©finit la taille d’une fenĂŞtre (ici : une heure), on comptabilise le nombre d’achats faits durant cette pĂ©riode – ce qui nous donne un point de la courbe -, puis on dĂ©place la fenĂŞtre d’une demi-heure, et on recommence. RĂ©sultat, on obtient une courbe telle que celle ci :

Sur l’axe horizontal est représenté le temps (avec pour unité, l’heure). L’axe vertical représente quant à lui le nombre de ventes réalisées dans une fenêtre.

On remarque tout de suite l’alternance jour / nuit, avec un pic de conversions le jour et un creux la nuit, ce qui peut sembler logique. Mais ce point n’est pas si évident : les données ne tombent jamais complètement à 0, même au milieu de la nuit !

Si on zoome, on observe que, même à l’intérieur de la journée, il existe probablement des “régimes” différents. Toutefois, il y a trop de “bruit” pour bien voir ce qu’il se passe…

Quel modèle d’analyse des données ?

Étant donné la nature cyclique de ce type de data, il existe un moyen intuitif de réduire ce bruit aléatoire. Imaginez que l’on replie ce graphe sur lui-même pour superposer chaque heure avec la même heure des autres jours. Il n’y aurait alors plus qu’à faire la moyenne, en espérant que la partie aléatoire s’annule avec elle-même, laissant apparaître la tendance de fond qui régit une journée.

Malheureusement, en pratique, cela fonctionne difficilement car il y a aussi des variations importantes selon les jours de la semaine. Typiquement, le profil journalier d’un lundi est différent de celui d’un samedi par exemple, et faire la moyenne des deux ne donnera pas une mesure plus précise, au contraire. Pour contourner ce problème, une solution consiste à construire un modèle bayésien hiérarchique (avec la librairie Pymc3) qui reflète ce processus complexe. Schématiquement, cela veut dire qu’on considère qu’il y a un modèle d’un profil journalier général, assez souple pour englober les spécificités des différents jours de la semaine.

Le profil journalier

Sur ce schéma, on représente le profil d’une journée type. L’axe horizontal représente le temps en heure et l’axe vertical représente le nombre de ventes réalisées durant cette heure. Le tracé plein représente le “centre” du modèle, les tracés en pointillés en illustre les “extrémités”.

On constate que le creux d’activité se situe entre minuit et 5h du matin. L’activité démarre doucement après 5-6 heures du matin pour atteindre un plateau vers 10h, en légère croissance jusqu’à 20h. On note aussi qu’il peut y avoir un pic après 20h. Nous allons donc voir, dans la partie suivante, que ce pic n’existe que certains jours de la semaine. Voilà pourquoi le modèle général de jour l’intègre même s’il n’est pas représenté de manière “central”.

Le profil hebdomadaire

On crée maintenant un modèle par jour de la semaine, dérivant du modèle général. En terme bayésien, on dit que le profil journalier général est un prior pour le profil des jours spécifiques de la semaine. L’avantage de cette approche est qu’elle permet d’affiner les mesures même avec peu de données. Par exemple, sur un mois de données, on a 30 jours pour modéliser l’évolution horaire au cours d’une journée, typiquement l’alternance jour / nuit. Sur une telle mesure globale, il n’y a alors besoin que de peu d’exemples pour affiner le déroulement de chaque jour de la semaine, qui sont tous subtilement différents les uns des autres.

Nous allons maintenant regarder les profils des différents jours de la semaine.

Première constatation : seule l’alternance jour / nuit est commune à chaque jour de la semaine. Pour autant, chaque jour semble avoir un profil très différent.

Ce point met en lumière un conseil d’expĂ©rimentation en CRO : il faut tester sur une pĂ©riode couvrant tous les jours de la semaine. Donc mĂŞme si un site a suffisamment de trafic pour gĂ©nĂ©rer des donnĂ©es significatives avec seulement une journĂ©e de trafic, il est fortement dĂ©conseillĂ© de le faire. Le comportement des visiteurs n’est pas le mĂŞme selon le jour de la semaine.

Pour faciliter la lecture de ces courbes, nous allons donc les représenter sur des graphiques différents.

Sur ce graphique-ci, nous avons regroupé des profils journaliers similaires : lundi, mardi, jeudi, dimanche. On remarque alors :

  • Un plateau de 10h Ă  20h.
  • Un pic d’activitĂ© vers 21h
  • Chose intĂ©ressante, le “dimanche est un jour de semaine”. C’est mĂŞme ce jour-lĂ  que le pic est le plus haut (vers 20h). La seule diffĂ©rence notable avec un jour de semaine est que l’activitĂ© dĂ©marre plus tardivement.

Les jours restants : mercredi, vendredi, samedi ont des profils nettement différents.

  • Le mercredi, mĂŞme si son allure gĂ©nĂ©rale a l’air de ressembler Ă  un lundi ou Ă  un mardi, l’activitĂ© est significativement plus importante. C’est d’ailleurs la journĂ©e oĂą il y a le plus d’achat (presque 20% de plus). L’activitĂ© de l’après-midi est quasiment Ă  la hauteur du pic maximal de 20h. Donc faire un test A/B uniquement sur ce jour risque fort d’amener Ă  des conclusions erronĂ©es. Car mĂŞme si c’est le jour le plus actif, cela ne reprĂ©sente que près de 20% de l’activitĂ© totale.
  • Le vendredi est nettement le jour le plus calme de la semaine, on peut aussi noter (comme le samedi) l’absence totale du pic de 20h.
  • Le samedi, le pic de 20h est absent, mais on note aussi un dĂ©marrage d’activitĂ© notablement plus tardive (comme le dimanche).

Conclusions

Nous avons donc vu comment il était possible d’extraire des profils d’activité à partir de données temporelles. De même, des spécificités e-commerce (par opposition au commerce classique) sont apparues :

  • Le mercredi est la plus grosse journĂ©e (presque 20% de plus que les autres jours !).
  • Le vendredi et le samedi sont les moins bonnes journĂ©es.
  • Le dimanche, par contre, contrairement au commerce classique, est tout Ă  fait comparable aux jours les plus actifs.
  • Le soir (après 20h) est une heure gĂ©nĂ©ralement propice aux achats…
  • …Sauf les vendredis et samedis soirs oĂą l’activitĂ© chute après 20h (en plus d’ĂŞtre de base plus basse que les autres jours).
  • Et, naturellement, les samedis et dimanches matins sont peu actifs…

Ces constats confirment l’importance de faire durer les tests A/B au minimum sur une, idéalement deux, semaines complètes, et ce quel que soit le volume de trafic. Vous pourrez ainsi bien couvrir les comportements très différents que l’on peut observer selon les jours de la semaine.
Attention toutefois : cela n’est pas pris en compte dans les tests statistiques qui ne tiennent compte que du nombre total de visiteurs et de conversions pour chaque variation.

Dans un prochain article, nous nous intéresserons donc aux différences selon le type de device utilisé…

Article

6min lecture

Le problème, c’est le choix : les limites de l’A/B testing

Qu’est-ce que la méthode d’A/B testing ? Il s’agit de comparer deux versions d’une même page web ou d’une application entre elles dans le but de déterminer la plus performante. Le principe de fonctionnement repose sur l’analyse statistique qui permet alors de définir quelle version est plus efficace selon l’objectif de conversion fixé. À quoi sert précisément l’A/B testing ? Dans quels cas particuliers l’appliquer ? Et pour quels résultats ? Tour d’horizon.

Ă€ qui s’adresse plus particulièrement l’A/B testing ? La mĂ©thode est principalement utilisĂ©e au sein des directions marketing des entreprises de toutes tailles, et de tous secteurs, en tant que technique d’optimisation du taux de conversion (Conversion Rate Optimization – CRO). Toutefois, la mĂ©thodologie n’est pas sans poser problème : en effet, les limites des analyses statistiques utilisĂ©es se retranscrivent sous forme de limites marketing.

Pour mieux comprendre, il est important de plonger dans les subtilités de l’A/B testing.

Le graal des spécialistes marketing : les décisions business basées sur l’A/B testing

Pour les directeurs Marketing, la prise de décisions a pour objectif d’accroître le chiffre d’affaires. Résultat, une majorité d’entre eux se creusent la tête pour répondre à ces questions :

  • Est-il nĂ©cessaire de diminuer le prix pour vendre plus ?
  • Ou, au contraire, les augmenter pour amĂ©liorer le panier moyen, au risque d’obtenir un taux de conversion infĂ©rieur ?
  • Les produits doivent-ils ĂŞtre classĂ©s par ordre de prix croissants ? Ou dĂ©croissants ?
  • Devez-vous Ă©largir votre gamme de produits ou la restreindre ? Ou les deux ? Ou ne rien changer ?
  • Les promos de type « 3 produits achetĂ©s pour le prix de 2 » sont-elles un bon moyen d’augmenter votre panier moyen ?
  • Est-il prĂ©fĂ©rable de proposer la livraison gratuite sans condition de dĂ©penses ou Ă  partir d’une certaine valeur de panier ?

Et si vous pouviez tester vos hypothèses business pour prendre la bonne décision ?
Malheureusement, les analyses statistiques utilisées aujourd’hui sont très limitées en termes d’interprétation des résultats.

Le principe de base de l’A/B testing

Pour rappel, le test consiste à exposer deux variantes de la même page (nommées A et B) à deux populations homogènes en séparant de façon aléatoire les visiteurs du site. Pour chaque variation, les donnés suivantes sont collectées :

  • Le nombre de visiteurs
  • Le nombre d’achats
  • La valeur du panier d’achat

Sur le papier, il devrait être relativement simple de définir quelle variation a généré le plus de revenus et, par conséquent, de déterminer quelle version est la plus performante. Néanmoins, comme n’importe quelle expérience sur le comportement humain, les données sont soumises au hasard. Résultat : si la variation B génère un panier moyen plus important que la variation A, cela ne signifie pas pour autant que B sera toujours meilleur que A.

La raison ? Difficile d’affirmer que la différence observée pendant un test sera répétée dans le futur. Voilà pourquoi les outils d’A/B testing utilisent des analyses statistiques pour qualifier les différences observées et identifier la variation la plus pertinente. Objectif : aider à séparer les données significatives des fluctuations aléatoires et imprévisibles qui ne sont pas corrélées aux différences entre les variations.

« Le problème, c’est le choix »

En e-commerce, la variation B peut être considérée comme la meilleure si elle génère :

  • Un gain de conversions : la variation amène Ă  convertir plus d’achats
  • Un gain au niveau du panier d’achat moyen : le panier moyen de la variation B est supĂ©rieur Ă  celui de la variation A
  • Un gain « mixte » : la variation B gĂ©nère Ă  la fois plus de conversions et un panier moyen plus Ă©levĂ©

Le gain de conversions

C’est la donnĂ©e la plus simple Ă  analyser dans la mĂ©thode d’A/B testing. L’outil statistique utilisĂ© : le test BayĂ©sien. La caractĂ©ristique fonctionnelle la plus importante de ce test repose sur l’intervalle de confiance du gain de conversion mesurĂ©.

Par exemple : on peut dire que la variation B produit un gain de 5 Ă  10 % – ce qui signifie que la variation B gĂ©nĂ©rerait entre 5 et 10 % d’achats supplĂ©mentaires par rapport Ă  la variation A. Dans ce cas, il est facile de dĂ©terminer que la variation B est plus performante. Vous pouvez alors la valider en tant que « meilleure variation » et la proposer Ă  l’ensemble de votre audience…

… Mais est-ce vraiment suffisant pour définir de façon définitive quelle est la variation la plus pertinente ? C’est ce que nous allons voir dans la suite de cet article.

Le gain de panier moyen

Cet indicateur est bien plus complexe à analyser. Les outils d’A/B testing utilisent le test Mann-Whitney U, également appelé Wilcoxon. Contrairement au test Bayésien, cette analyse ne fournit qu’une simple probabilité de gain sans préciser l’importance du gain. Par exemple, vous mesurez une différence de +5€ dans le panier moyen relatif à la variation B, ainsi qu’une probabilité de gain (donné par le test Mann-Whitney) à 98 %. Vous pourriez croire que ce gain de 5€ est sûr à 98 %, mais en réalité, il se peut que vous n’obteniez qu’un gain de +0,1€. L’analyse statistique a toujours raison : c’est un gain ! C’est simplement que le test Mann-Whitney ne prédit que l’existence du gain, pas de quel montant il sera !

Mais le pire est qu’une variation « gagnante » en termes de taille de panier moyen selon le test de Mann-Whitney pourrait en réalité générer moins de revenus, en raison de la présence de valeurs extrêmes qui faussent l’analyse. Comment l’éviter ? Une option pourrait être de supprimer ces valeurs avant d’analyser les résultats. Toutefois, il est à noter que cette solution n’en reste pas moins inévitablement biaisée : la variation la plus performante ne dépend que de la ligne « valeurs extrêmes » que vous aurez artificiellement définies.

Le gain mixte

Le moyen le plus efficace d’identifier la meilleure variation est de déterminer un gain significatif à la fois en termes de conversion et de panier moyen. En réalité, c’est même le seul cas où une décision peut être prise sans le moindre doute !

  • Vous observez un certain gain de conversion mais une perte de panier moyen → impossible de prendre une dĂ©cision avisĂ©e car vous ne connaissez pas le montant de la perte, et ignorez si le gain obtenu va compenser cette perte.
  • L’analyse dĂ©montre une perte de conversions et un gain dans le panier d’achat moyen → mĂŞme constat.
  • Perte ou gain indĂ©fini dans le panier moyen → si vous ne connaissez pas l’évolution du panier moyen, impossible d’être sĂ»r de la pertinence de la variation.

Ce dernier scénario représente la situation le plus courante. En effet, les statistiques liées au panier moyen nécessitent généralement plus d’informations que le taux de conversion afin de proposer une analyse pertinente.

Comme vous pouvez le constater, la majorité de tests A/B concluent à la certitude d’un gain de conversion. Mais sans information sur l’évolution du panier moyen, ces conclusions doivent être remises en question. On pourrait alors argumenter que c’est la raison pour laquelle on parle « d’optimisation du taux de conversion » plutôt que « d’optimisation business ».

Faut-il alors en conclure que l’A/B testing ne sert à rien ? Heureusement non ! Aujourd’hui, la plupart des tests A/B se concentrent sur l’expérience utilisateur, l’interface utilisateur et le design : couleurs, formulation, visuels, mise en pages d’un produit… En marketing, on parle de « réduire la friction du parcours d’achat », en d’autres termes, limiter le nombre de visiteurs insatisfaits et qui quittent le site sans avoir effectué le moindre achat.

Mais pour pouvoir aller plus loin que les tests basĂ©s sur l’ergonomie et s’attaquer aux vraies questions de marketing, nous avons besoin d’inventer le prochain test Mann-Whitney qui sera capable d’estimer la taille du gain ou de la perte gĂ©nĂ©rĂ©e par l’expĂ©rimentation. VoilĂ  qui donnera dĂ©finitivement un second souffle Ă  l’A/B testing.

Revoir l’intervention de notre Chief Data Scientist, Hubert Wassner, et d’Aurélie Bastian, Manager Web Analytics et Conversion de Sutter Mills, à l’occasion de Digital Innovation 2019.