Auteur/autrice : Hubert Wassner

Hubert est Chief Data Scientist chez AB Tasty. Il a fait de l'analyse de données et du machine learning depuis plus de 20 ans, dans des sujets aussi variés que la reconnaissance de la parole, la biométrie, et l'analyse d'ADN. Il a été aussi professeur en école d'ingénieur. Il a gardé ce goût du partage de connaissance par le biais d'article de blogs et d'interventions publiques

Article

6 Mai 2025

6min lecture

Minimal Detectable Effect (MDE) : l’allié indispensable de vos tests A/B

Hubert Wassner

En CRO, un dilemme courant est de ne pas savoir quoi faire d’un test qui présente un gain faible et non significatif.

Faut-il le déclarer « perdant » et passer à autre chose ? Ou faut-il collecter davantage de données dans l’espoir qu’il atteigne le seuil de significativité fixé ?

Malheureusement, nous faisons souvent le mauvais choix, influencés par ce qu’on appelle la « théorie de l’engagement ». Nous avons déjà déployé tellement d’énergie à créer ce test, attendu les résultats si longtemps, que nous ne voulons pas nous arrêter là sans rien obtenir de ce travail.

Cependant, l’essence même du CRO est d’expérimenter, et cela implique d’accepter qu’une partie des expériences ne donnera rien. Pourtant, certains de ces échecs pourraient être évités avant même de commencer, grâce à un concept statistique : le MDE (Minimal Detectable Effect), que nous allons explorer ensemble.

MDE : Le seuil de détection minimal

Dans la pratique des tests statistiques, les échantillons ont toujours été précieux, peut-être encore plus dans le cadre de sondages qu’en CRO. En effet, mener des entretiens pour interroger les gens est bien plus complexe et coûteux que de préparer un test A/B sur un site web.

Les statisticiens ont donc créé des formules qui permettent de relier les paramètres principaux d’une expérience à des fins de planification :

Le nombre d’échantillons (ou visiteurs) par variation
Le taux de conversion de référence
L’ampleur de l’effet que l’on espère observer

Cela permet d’estimer le coût de collecte d’échantillons. Le problème est que, parmi ces trois paramètres, un seul est connu : le taux de conversion de référence. Nous ne connaissons pas vraiment le nombre de visiteurs que nous allons envoyer par variation. Il dépend du temps que nous allons attribuer à la collecte de données de ce test, et idéalement, nous l’aimerions le plus court possible.

Enfin, le gain de conversions que nous observerons à la fin de l’expérience est certainement la plus grande inconnue, puisque c’est précisément ce que nous cherchons à déterminer.

Alors, comment faire avec autant d’inconnues ? La solution consiste à estimer celles que nous pouvons grâce à des données historiques. Pour les autres, nous allons créer plusieurs scénarios possibles :

Le nombre de visiteurs peut être estimé à partir du trafic passé, et nous pourrons faire des projections par blocs d’une semaine.
Le taux de conversion peut également être estimé à partir de données passées.
Pour chaque configuration de scénario issu des paramètres précédents, nous pourrons calculer les gains de conversions minimaux (MDE) qu’il faudrait avoir pour atteindre le seuil de significativité.

Par exemple, avec un trafic de 50 000 visiteurs et un taux de conversion de 3 % (mesuré sur 14 jours), voici ce que nous obtenons :

L’axe horizontal indique le nombre de jours.
L’axe vertical indique le MDE correspondant au nombre de jours.

Le point le plus à gauche de la courbe nous indique que si nous obtenons un gain de conversion de 10 % au bout de 14 jours, alors ce test sera gagnant, car ce gain pourra être considéré comme significatif. Typiquement, il aura un indicateur de chance d’être supérieur à l’original de 95 %. Si nous pensons que la modification que nous avons faite dans la variation a une chance d’améliorer la conversion de ~10 % (ou plus), alors ce test vaut la peine d’être lancé, et nous pouvons espérer un résultat significatif en 14 jours.

En revanche, si la modification est peu importante et que l’espoir de gain est plus faible que 10 %, alors 14 jours ne seront pas suffisants. Pour en savoir plus, nous allons déplacer le curseur de la courbe vers la droite. Cela correspond à ajouter des jours à la durée de l’expérience, et nous voyons alors comment évolue le MDE.

Naturellement, la courbe de MDE décroît : plus nous collectons de données, plus le test sera sensible à des effets plus petits.

Par exemple, en ajoutant une semaine de plus, soit une expérience de 21 jours, on constate que le MDE descend à 8,31%. Est-ce qu’on considère que cela est suffisant ? Si oui on peut valider le fait de créer cette expérience.

Si ce n’est pas le cas, alors on continue à explorer la courbe jusqu’à trouver une valeur qui correspond à notre objectif. En continuant sur la courbe, nous voyons qu’un gain de l’ordre de 5,44 % nécessitera d’attendre 49 jours.

C’est le temps nécessaire pour collecter suffisamment de données afin de pouvoir déclarer ce gain significatif. Si c’est trop long pour votre planification, il est alors probable que vous décidiez de réaliser un test au contenu plus ambitieux pour espérer un gain plus important, ou bien simplement de ne pas faire ce test et d’utiliser ce trafic pour une autre expérience.

Cela vous évitera de vous trouver dans la situation décrite au début de cet article, où vous allez gâcher du temps et de l’énergie dans une expérience vouée à l’échec.

Du MDE au MCE

Une autre approche du MDE est de le voir comme un MCE : Minimum Caring Effect. Cela ne change rien à la méthodologie si ce n’est le sens que vous accordez à la définition du seuil minimal de sensibilité de votre test. Jusqu’à présent on a considéré qu’il s’agissait d’une estimation de l’effet que la variation pouvait produire. Mais il peut aussi être intéressant de considérer la sensibilité minimale en fonction de son intérêt opérationnel: le MCE.

Prenons un exemple, imaginons qu’on puisse chiffrer le coût de développement de la variation ainsi que sa mise en production et qu’on puisse le comparer à l’application d’un gain de conversion sur une période d’une année. On serait alors en mesure de se dire qu’une augmentation du taux de conversion inférieur à 6% mettrait plus d’une année à couvrir les coûts de mise en place.

Ainsi, même si on dispose de suffisamment de trafic pour qu’un gain de 6% soit significatif, il n’a peut-être pas d’intérêt opérationnel, dans ce cas il est inutile de pousser l’expérimentation au-delà de la durée correspondante à ce 6%.

Dans notre cas on pourra donc conclure qu’il est inutile de dépasser les 42 jours d’expérimentation car au-delà de cette durée, si le gain mesuré n’est pas significatif cela veut dire que le gain réel est forcément inférieur à 6% et n’a donc pas d’intérêt opérationnel pour vous.

Conclusion

La fonctionnalité du calculateur de MDE va vous permettre de connaître la sensibilité de votre protocole d’expérience en fonction de sa durée. Il s’agit d’une aide précieuse lors de l’étape de planification de la feuille de route de vos tests. Cela permettra d’exploiter au mieux votre trafic et vos ressources.

Vous cherchez une calculatrice gratuite et minimaliste du Minimal Detectable Effect à essayer ? Consultez notre calculatrice MDE gratuite ici.

Vous aimeriez aussi...

Voir tous

Article

4min lecture

Du bio, du beau et de la data : la recette Mademoiselle bio

Selima Ben Cheikh

27 Mai 2025

Article

2min lecture

Remettez la souveraineté digitale au cœur de votre stratégie d’expérimentation : découvrez Domain Delegation par AB Tasty

AB Tasty

21 Mai 2025

Article

2min lecture

Comment nous avons adopté OpenFeature pour rendre notre SDK AB Tasty Feature Experimentation encore plus ouvert

Julie Dumont

30 Avr 2025

Abonnez-vous à
notre Newsletter

Article

12 Juin 2023

14min lecture

Comment faire face à un faible trafic en CRO

Hubert Wassner

Si le nombre de visiteurs sur votre site web n’est pas aussi élevé que vous l’espériez, cela ne signifie pas que vous devez abandonner vos objectifs CRO.

À ce stade, vous avez probablement remarqué que la plupart des conseils en matière de CRO sont adaptés aux sites web à fort trafic. Heureusement, cela ne veut pas dire que vous ne pouvez pas optimiser ce dernier, même en ayant un trafic plus faible.

La vérité est que n’importe quel site web peut être optimisé : il vous suffit d’adapter votre stratégie d’optimisation à votre situation spécifique.

Dans cet article, nous aborderons :

Le mécontentement le plus courant concernant le CRO (le seuil de certitude de 95 % et d’où il provient)
Un seuil approprié pour un faible trafic
Des idées sur le façon d’optimiser sur votre site web avec un flux de trafic réduit
La technique de test CUPED
Quand la technique CUPED fonctionne et ne fonctionne pas

Commençons par une analogie

Pour faciliter la compréhension de cet article, commençons par une analogie. Imaginez : plutôt que de mesurer deux variations et de choisir un gagnant, nous mesurons les performances de deux boxeurs et plaçons des paris sur qui remportera les 10 prochains rounds.

Comment choisir sur qui parier ?

Imaginons que le boxeur A et le boxeur B soient tous les deux des débutants que personne ne connaît. Après le premier round, vous devez faire votre choix. En fin de compte, vous allez très probablement parier sur le boxeur qui a remporté le premier round. Cela peut être risqué si la marge de victoire est faible, mais en fin de compte, vous n’avez pas d’autre moyen de prendre votre décision.

Maintenant, imaginez que le boxeur A est connu comme un champion, et le boxeur B est un challenger que vous ne connaissez pas. Votre connaissance sur le boxeur A est ce que l’on appelle un « prior », à savoir des informations que vous obtenez en amont et qui influencent votre décision.

Sur la base de cette connaissance préalable, vous serez plus enclin à parier sur le boxeur A en tant que champion pour les prochains rounds, même si le boxeur B remporte le premier round avec une marge très faible.

De plus, vous ne choisirez le boxeur B comme champion prédit que s’il remporte le premier round avec une marge importante. Plus votre connaissance préalable est forte, plus la marge doit être grande pour vous convaincre de changer votre pari.

Vous suivez ? Si c’est le cas, les paragraphes suivants seront faciles à comprendre et vous comprendrez vite d’où vient ce « seuil de 95 % ».

Maintenant, passons aux conseils pour optimiser votre site web à faible trafic.

1. Résoudre le problème : « Je n’atteins jamais le seuil de certitude de 95% »

C’est le mécontentement qui revient le plus souvent concernant le CRO sur des sites web à faible trafic et sur les pages à faible trafic de plus grands sites web.

Avant d’approfondir ce problème, commençons par répondre à la question suivante : d’où vient cette « règle d’or » des 95% ?

L’origine du seuil de certitude de 95%

Commençons notre explication avec une idée très simple : que se passerait-il si les stratégies d’optimisation étaient appliquées dès le premier jour ? Si deux variantes sans historique étaient créées en même temps, il n’y aurait pas de version « originale » contestée par un nouvel arrivant.

Cela vous obligerait à choisir la meilleure dès le départ.

Dans ce cas, la moindre différence de performance pourrait être prise en compte pour prendre une décision. Après un court test, vous choisiriez la variante avec la meilleure performance. Il ne serait pas bon de choisir la variante qui a une performance inférieure et, de plus, ce serait insensé d’attendre un seuil de certitude de 95% pour choisir un gagnant.

Mais en pratique, l’optimisation est réalisée bien après le lancement d’une entreprise.

Ainsi, dans la réalité, il existe une version A qui existe déjà et un nouveau challenger (version B) qui est créé.

Si le nouveau challenger (la version B) arrive et que la différence de performance entre les deux variantes n’est pas significative, vous n’aurez aucun problème à déclarer que la version B n’est « pas un gagnant ».

Les tests statistiques sont symétriques. Donc, si nous inversions les rôles, en échangeant A et B dans le test statistique, cela indiquerait que l’original n’est pas significativement meilleur que le challenger. L’aspect « non concluant » du test est symétrique.

Alors, pourquoi orientez-vous 100% du trafic vers l’original à la fin d’un test non concluant, en déclarant implicitement A comme gagnant ? Parce que vous avez pris en compte trois connaissances préalables :

La version A était le choix initial. Il a été élaboré par le créateur de la page.
La version A a déjà été mise en œuvre et techniquement approuvée. La version B n’est généralement qu’une maquette.
La version A dispose de nombreuses données pour prouver sa valeur, tandis que B est un challenger avec des données limitées qui ne sont collectées que pendant la période de test.

Les points 1 et 2 sont les bases d’une stratégie de CRO, vous devrez donc aller au-delà de ces deux points. Le point 3 explique que la version A dispose de plus de données pour étayer sa performance. Cela permet de comprendre pourquoi vous faites plus confiance à la version A qu’à la version B.

Maintenant, vous comprenez que cette règle de seuil de certitude fixé à 95% est une façon d’expliquer des connaissances préalables. Et celles-ci proviennent principalement des données historiques.

Par conséquent, lors de l’optimisation d’une page à faible trafic, votre seuil de certitude devrait être inférieur à 95% car vos connaissances sur A sont plus faibles en raison de son trafic et de son ancienneté.

Ce seuil devrait être défini en fonction du volume du trafic qui a traversé le site web depuis son premier jour. Le problème avec cette approche, c’est que nous savons que les taux de conversion ne sont pas stables et qu’ils peuvent changer avec le temps. Pensez à la saisonnalité, par exemple l’afflux du Black Friday, les jours de congé, les périodes de Noël où l’activité augmente, etc. En raison de ces variations saisonnières, il n’est pas possible de comparer les performances à des périodes différentes.

C’est pourquoi les professionnels ne tiennent compte que des données pour la version A et la version B collectées pendant la même période, et ils fixent un seuil de certitude élevé (95%) pour accepter le challenger comme gagnant afin de formaliser les connaissances préalables solides en faveur de la version A.

Quel est le seuil de décision approprié lors d’un faible trafic ?

Il est difficile de suggérer un chiffre exact sur lequel se concentrer car cela dépend de votre tolérance au risque.

Selon le protocole de la méthode de » test d’hypothèse », on doit fixer une période de collecte de données, et analyser seulement à la fin de cette période.

Cela signifie que le critère d’arrêt d’un test n’est pas une mesure statistique ou basée sur un nombre spécifique. Le critère d’arrêt devrait être une période de temps qui se termine. Une fois la période terminée, vous devez examiner les statistiques pour prendre une décision appropriée.

AB Tasty, notre logiciel d’optimisation de l’expérience client et de feature management, utilise la méthode bayésienne qui produit un indice de « chance de gagner”. Cet indice permet une interprétation directe des chances de gagner, plutôt que d’obtenir une P valeur qui elle a une signification très complexe.

En d’autres termes, l’indice de « chance de gagner » est la probabilité qu’une variation donnée soit meilleure que l’original.

Par conséquent, une « chance de gagner » de 95% signifie qu’il y a une probabilité de 95% que la variation donnée soit gagnante. Cela suppose que nous n’avons ni connaissance préalable, ni confiance spécifique dans l’original.

Le seuil de 95% lui-même est également un compromis par défaut entre la connaissance préalable que vous avez sur l’original et un certain niveau de tolérance au risque (cela aurait même pu être un seuil de 98%).

Bien qu’il soit difficile de donner un chiffre exact, voici une échelle approximative pour votre seuil :

Nouvelles variations A et B : si vous avez un cas où la variation A et la variation B sont toutes les deux nouvelles, le seuil peut être très bas, jusqu’à 50 %. S’il n’y a pas de données antérieures sur les performances des variations et que vous devez faire un choix pour la mise en œuvre, même une chance de gagner de 51 % est meilleure que 49 %.
Nouveau site web, faible trafic : si votre site web est nouveau et a très peu de trafic, vous avez probablement très peu de connaissances préalables sur la variation A (ici, la variation d’origine). Dans ce cas, fixer un seuil de 85 % est raisonnable. Cela signifie que si vous mettez de côté ce que vous savez déjà sur l’original, vous avez encore 85 % de chance de choisir le gagnant et seulement 15 % de chance de choisir une variation équivalente à l’original (avec une chance encore moindre qu’elle se comporte moins bien). Selon le contexte, un tel pari peut avoir du sens.
Entreprise mature, faible trafic : si votre entreprise a une longue histoire mais un trafic faible, un seuil de 90 % est raisonnable. C’est parce qu’il y a encore peu de connaissances antérieures sur l’original.
Entreprise mature, trafic élevé : si vous disposez de nombreuses données ou de connaissances préalables sur la variation A, un seuil de 95 % est approprié.

Le seuil d’origine de 95 % est bien trop élevé si votre entreprise a un faible trafic, car il y a peu de chances que vous l’atteigniez. Par conséquent, votre stratégie CRO n’aura aucun effet, et la prise de décision basée sur les données devient impossible.

En utilisant AB Tasty comme plateforme d’expérimentation, vous recevrez un rapport comprenant la « chance de gagner » ainsi que d’autres informations statistiques concernant vos expériences. Il inclurait également l’intervalle de confiance sur le gain estimé, qui est un indicateur important. Les limites autour du gain estimé sont également calculées de manière bayésienne, ce qui signifie qu’elles peuvent être interprétées comme le meilleur et le pire scénario.

L’importance des statistiques bayésiennes

Maintenant que vous comprenez le sens précis du niveau de « certitude » de 95%, pourtant bien connu, vous êtes en mesure de sélectionner des seuils appropriés correspondant à votre cas particulier.

Il est important de se rappeler que cette approche ne fonctionne qu’avec les statistiques bayésiennes, car l’approche fréquentiste fournit des indices statistiques (tels que les P valeurs et les intervalles de confiance) qui ont un sens totalement différent et ne conviennent pas à la logique expliquée.

2. Les statistiques sont-elles valables avec de petits nombres ?

Oui, elles sont valables tant que vous ne mettez pas fin au test en fonction du résultat. Vous pouvez ignorer le readiness shield.

Rappelez-vous que le protocole de test indique qu’une fois que vous avez décidé d’une période de test, la seule raison de l’arrêter est lorsque ce délai est écoulé. Dans ce cas, les indices statistiques (« chance de gagner » et intervalle de confiance) sont vrais et utilisables.

Vous pensez peut-être : « D’accord, mais j’atteins rarement le seuil de certitude de 95%… »

Rappelez-vous que le seuil de 95% n’a pas besoin d’être le chiffre magique pour tous les cas. Si vous avez peu de trafic, il est probable que votre site web soit récent. Si vous vous référez au point précédent, vous pouvez consulter notre échelle suggérée pour différents scénarios.

Si vous avez peu de trafic en tant que nouvelle entreprise, vous pouvez certainement passer à un seuil plus bas (comme 90%). Le seuil est encore assez élevé car il est courant d’avoir plus confiance en une version originale qu’en une variante car elle est utilisée depuis plus longtemps.

Si vous avez affaire à deux variantes totalement nouvelles, à la fin de votre période de test, il sera plus facile de choisir la variante avec le plus grand nombre de conversions (sans utiliser un test statistique) puisqu’il n’y a aucune connaissance préalable de la performance de A ou B.

3. Faire le chemin à l’envers

Parfois, le problème de trafic n’a pas pour cause un site web à faible trafic, mais plutôt une page web. En effet, dans la plupart des cas, les pages avec un faible trafic se situent à la fin du funnel d’achat.

Dans ce cas, une excellente stratégie consiste à travailler sur l’optimisation de celui-ci. Une première solution peut se trouver en cherchant à optimiser le parcours client digital tout au long du funnel.

4. Est-ce que la technique CUPED fonctionne vraiment ?

Qu’est-ce que CUPED ?

Controlled Experiment Using Pre-Experiment Data est un terme à la mode dans le domaine de l’expérimentation. CUPED est une technique qui prétend produire des résultats jusqu’à 50% plus rapidement. Cela est très attrayant pour les sites Web à faible trafic.

Est-ce que CUPED fonctionne vraiment aussi bien ?

Pas exactement, pour deux raisons : l’une est organisationnelle et l’autre est liée à son application.

La contrainte organisationnelle

Ce qui est souvent oublié, c’est que CUPED signifie Controlled experiment Using Pre-Experiment Data.

En pratique, la période idéale pour collecter des « Pre-Experiment Data » est de deux semaines pour espérer une réduction de temps de 50%.

Ainsi, pour un test classique de 2 semaines, CUPED prétend que vous pouvez mettre fin au test en seulement 1 semaine.

Cependant, pour pouvoir observer correctement vos résultats, vous aurez besoin de deux semaines de données pré-expérimentation. En réalité, vous devez donc disposer de trois semaines pour mettre en œuvre CUPED afin d’obtenir la même précision qu’un test classique de 2 semaines.

Oui, vous avez bien lu. En fin de compte, vous aurez besoin de trois semaines pour mener à bien une expérimentation.

En d’autres termes, cette méthode n’est utile que si vous disposez déjà de deux semaines de données de trafic non exposées à une quelconque expérience. Mais si vous pouvez planifier deux semaines sans expérimentations dans votre roadmap pour collecter des données, cela bloquera le trafic pour d’autres expériences.

La contrainte d’application

En plus de la contrainte organisationnelle/liée à la période des deux semaines, il existe deux autres prérequis pour que CUPED soit efficace :

CUPED s’applique uniquement aux visiteurs parcourant le site à la fois pendant la période de pré-expérimentation et la période expérimentale.
Ces visiteurs doivent avoir le même comportement par rapport au KPI. Les données des visiteurs doivent être corrélées entre les deux périodes.

Vous constaterez dans le paragraphe suivant que ces deux contraintes rendent CUPED pratiquement impossible pour les sites de e-commerce et ne s’appliquent qu’aux plateformes.

Revenons à notre exemple de configuration d’expérimentation :

Deux semaines de données pré-expérimentation.
Deux semaines de données d’expérimentation (que nous espérons ne durer qu’une semaine grâce à la réduction de temps de 50% supposée).
L’objectif d’optimisation est une transaction : augmenter le nombre de conversions.

La contrainte numéro 1 stipule qu’il faut avoir les mêmes visiteurs pendant la période de pré-expérimentation et d’expérimentation. Or, le parcours du visiteur dans le secteur du e-commerce dure généralement une semaine.

En d’autres termes, il y a très peu de chances que vous voyiez les mêmes visiteurs dans les deux périodes. Ainsi, on ne peut s’attendre qu’à un effet très limité de CUPED (limité à la portion de visiteurs observés dans les deux périodes).

La contrainte numéro 2 stipule que les visiteurs doivent avoir le même comportement en ce qui concerne la conversion (par rapport au KPI en cours d’optimisation). Honnêtement, cette contrainte n’est tout simplement jamais respectée dans le e-commerce.

La conversion dans le e-commerce se produit soit pendant la période de pré-expérimentation, soit pendant la période expérimentale, mais pas dans les deux cas (à moins que votre client effectue fréquemment plusieurs achats pendant la période de l’expérience).

Cela signifie qu’il n’y a aucune chance que les conversions des visiteurs soient corrélées entre les périodes.

En résumé : CUPED n’est tout simplement pas applicable aux sites e-commerce pour optimiser les transactions.

Cela est clairement indiqué dans l’article scientifique d’origine, mais dans un souci de popularité, cette technique de buzzword est présentée de manière erronée dans l’industrie des tests.

En réalité, CUPED fonctionne uniquement pour les conversions multiples sur des plateformes qui ont des visiteurs récurrents effectuant les mêmes actions.

Les grandes plateformes adaptées à CUPED seraient les moteurs de recherche (comme Bing, où il a été inventé) ou les plateformes de streaming où les utilisateurs viennent quotidiennement et effectuent les mêmes actions répétées (lecture d’une vidéo, clic sur un lien dans une page de résultats de recherche, etc.).

Mais si vous essayez de trouver une application de CUPED dans le domaine du e-commerce, vous vous rendrez rapidement compte que ce n’est tout simplement pas possible.

On pourrait essayer d’optimiser le nombre de produits consultés, mais le problème de la contrainte 1 reste applicable : un très petit nombre de visiteurs sera présent dans les deux ensembles de données. De plus, il y a une objection encore plus fondamentale : ce KPI ne devrait pas être optimisé en lui-même, sinon vous encouragez potentiellement l’hésitation entre les produits.
Vous ne pouvez même pas essayer d’optimiser le nombre de produits achetés par les visiteurs avec CUPED car la contrainte numéro 2 reste valable. L’acte d’achat peut être considéré comme instantané. Par conséquent, il ne peut se produire que dans une période ou l’autre, pas les deux. S’il n’y a pas de corrélation attendue dans le comportement des visiteurs, il n’y a alors aucun effet CUPED à attendre.

Conclusion sur CUPED

En conclusion, CUPED ne fonctionne pas pour les sites de e-commerce où une transaction est l’objectif principal d’optimisation. À moins d’être Bing, Google ou Netflix, CUPED ne sera pas l’ingrédient secret pour vous aider à optimiser votre activité.

Cette technique est certainement un mot à la mode qui suscite rapidement l’intérêt. Cependant, il est important d’avoir une vision plus globale avant de vouloir ajouter CUPED à votre feuille de route. Les marques de e-commerce devront prendre en compte le fait que cette technique de test ne convient pas à leur entreprise.

Optimisation pour les sites à faible trafic

Les marques ayant un faible trafic sont toujours des candidats privilégiés pour l’optimisation de leur site web, même si elles doivent adopter une approche légèrement différente de la méthode traditionnelle.

Que cela implique de choisir une page plus haut dans le funnel d’achat ou d’adopter un seuil de certitude légèrement plus bas, l’optimisation continue est cruciale.

Vous souhaitez commencer à optimiser votre site Web ? AB Tasty est la plateforme d’optimisation de l’expérience best-in-class qui vous permet de créer une expérience digitale enrichie rapidement. De l’expérimentation à la personnalisation, cette solution peut vous aider à activer et à engager votre public pour stimuler vos conversions.

Vous pouvez trouver le lien de l’article original ici.

Vous aimeriez aussi...

Voir tous

Article

4min lecture

Du bio, du beau et de la data : la recette Mademoiselle bio

Selima Ben Cheikh

27 Mai 2025

Article

2min lecture

Remettez la souveraineté digitale au cœur de votre stratégie d’expérimentation : découvrez Domain Delegation par AB Tasty

AB Tasty

21 Mai 2025

Article

6min lecture

Minimal Detectable Effect (MDE) : l’allié indispensable de vos tests A/B

Hubert Wassner

6 Mai 2025

Abonnez-vous à
notre Newsletter

Article

9 Avr 2021

16min lecture

A/B Testing : méthode fréquentiste ou bayésienne ?

Hubert Wassner

Dans le secteur de l’AB testing, il existe deux méthodes majeures pour interpréter les résultats d’un test : fréquentiste ou bayésienne.

Ces termes font référence à deux méthodes de statistiques inférentielles. Des débats houleux visent à déterminer la « meilleure » solution mais chez AB Tasty, nous savons quelle méthode a fini par gagner nos faveurs.

Bayesian vs frequentist methods in ab testing — Source

Que vous soyez à la recherche d’une solution d’AB testing, que vous découvriez le domaine ou que vous cherchiez simplement à mieux interpréter les résultats d’une expérience, il est essentiel de comprendre la logique de chaque méthode. Cela vous aidera à prendre de meilleures décisions commerciales et/ou à choisir la meilleure plateforme d’expérimentation.

Dans cet article, nous allons évoquer :

[toc]

Définition des statistiques inférentielles

Les méthodes fréquentistes et bayésiennes appartiennent à la branche des statistiques inférentielles. Contrairement aux statistiques descriptives (qui comme leur nom l’indique, décrivent exclusivement des événements passés), les statistiques inférentielles visent à induire ou à anticiper des événements futurs. De la version A ou la version B, laquelle aura un meilleur impact sur un KPI X ?

À savoir : Pour entrer un peu plus dans les détails, techniquement, les statistiques inférentielles ne consistent pas à anticiper au sens temporel du terme, mais à extrapoler ce qu’il se passera en appliquant les résultats à un plus grand nombre de participants. Que se passe-t-il si nous proposons la version B gagnante à l’ensemble de l’audience de mon site web ? La notion d’événements « futurs » est bien présente dans le sens où nous devrons effectivement implémenter la version B demain, mais nous n’utilisons pas les statistiques pour « prédire l’avenir » au sens strict.

Prenons un exemple. Imaginons que vous soyez fan de sports olympiques et que vous vouliez en apprendre davantage sur une équipe de natation masculine. Plus précisément, combien mesurent les membres de l’équipe ? Grâce aux statistiques descriptives, vous pourriez déterminer quelques données intéressantes à propos de l’échantillon (autrement dit, l’équipe) :

La taille moyenne de l’échantillon
L’étalement de l’échantillon (variance)
Le nombre de personnes en dessous ou au-dessus de la moyenne
Etc.

Cela peut répondre à vos besoins immédiats mais le périmètre est relativement limité. Les statistiques inférentielles vous permettent d’induire des conclusions à des échantillons trop importants pour être étudiés par une approche descriptive. Si vous vouliez connaître la taille moyenne de tous les hommes sur la planète, il serait impossible d’aller collecter toutes ces données. En revanche, vous pouvez utiliser les statistiques inférentielles pour induire cette moyenne à partir de différents échantillons, plus limités.

On peut induire ce type d’information par l’analyse statistique de deux manières : à l’aide des méthodes fréquentiste et bayésienne.

Définition des statistiques fréquentistes

L’approche fréquentiste vous est peut-être plus familière car elle est plus fréquemment utilisée par les logiciels d’A/B testing (sans vouloir faire de mauvais jeu de mot…). Elle est également souvent enseignée dans les cours de statistiques en études suppérieures.

Cette approche vise à prendre une décision à propos d’une expérience unique.

Avec l’approche fréquentiste, vous partez de l’hypothèse selon laquelle il n’y a pas de différence entre la version A et la version B du test. Au terme de votre expérience, vous obtiendrez ce que l’on appelle la P-valeur (valeur de probabilité).

La « pValue » (valeur-p) désigne la probabilité d’obtenir des résultats au moins aussi extrêmes que les résultats observés, en partant du principe qu’il n’y a pas de (réelle) différence entre les expériences.

En pratique, la valeur-p est interprétée pour signifier la probabilité qu’il n’y a aucune différence entre vos deux versions. (C’est pour cela qu’elle est souvent “inversée” en utilisant la formule basique : p = 1-valeur-p, afin d’exprimer la probabilité qu’il existe une différence).

Plus la valeur-p est faible, plus élevées sont les chances qu’il existe effectivement une différence, et donc que votre hypothèse est fausse.

Avantages de l’approche fréquentiste :

Les modèles fréquentistes sont disponibles dans n’importe quelle bibliothèque de statistiques pour tous les langages de programmation.
Le calcul des tests fréquentistes est ultra-rapide.

Inconvénients de l’approche fréquentiste :

La valeur-p est uniquement estimée à l’issue d’un test et non pendant. Regarder régulièrement les données (data peeking) avant la fin d’un test génère des résultats trompeurs car il s’agit alors de plusieurs expériences (une nouvelle à chaque fois que vous examinez les données) quand le test est conçu pour une seule expérience.
Vous ne pouvez pas connaître le réel intervalle de gain d’une variation gagnante.

Définition des statistiques bayésiennes

L’approche bayésienne explore les choses sous un angle un peu différent.

Son origine remonte à un charmant mathématicien britannique du nom de Thomas Bayes et à son éponyme théorème de Bayes.

L’approche bayésienne permet d’inclure des informations antérieures (« a priori ») à votre analyse actuelle. Cette méthode fait intervenir trois concepts qui se recoupent :

Un a priori, à savoir une information obtenue d’une expérience précédente. Au début de l’expérience, nous utilisons un a priori « non-informatif » (comprendre « vide »).
Des preuves, c’est à dire les données de l’expérience actuelle.
Un posteriori, soit l’information actualisée obtenue à partir de l’a priori et des preuves. C’est ce que l’on obtient par l’analyse bayésienne.

Par nature, ce test peut être utilisé pour une expérience en cours. Lors du data peeking, les données observées peuvent servir d’a priori, les données à venir seront les preuves, et ainsi de suite. Cela signifie que le « data peeking » s’intègre naturellement à la conception du test. Ainsi, à chaque data peeking, le posteriori calculé par l’analyse bayésienne est valide.

L’approche bayésienne permet aux professionnels du CRO d’estimer le gain d’une variation gagnante : un élément fondamental de l’A/B testing dans un contexte business. Nous reviendrons plus tard sur ce point.

Avantages de l’approche bayésienne :

Elle permet d’observer les données pendant un test. Ainsi, vous pouvez stopper le traffic si une variation échoue ou bien passer plus rapidement à une variation gagnante évidente.
Elle vous permet de connaître le réel intervalle de gain d’un test gagnant.
Par nature, elle élimine souvent l’implémentation de faux positifs.

Inconvénients de l’approche bayésienne :

Elle nécessite une boucle d’échantillonnage qui utilise une charge CPU non-négligeable. Ce n’est pas un problème pour l’utilisateur mais cela peut potentiellement poser problème à plus grande échelle.

Approche bayésienne vs. fréquentiste

Alors, quelle est la « meilleure » méthode ?

Commençons par préciser que ces méthodes statistiques sont toutes les deux parfaitement valables. Mais chez AB Tasty, nous avons une nette préférence pour l’approche bayésienne. Pourquoi ?

La mesure du gain

L’une des raisons principales est que les statistiques bayésiennes vous permettent d’évaluer l’ampleur du gain réel d’une variation gagnante, plutôt que de savoir uniquement qu’il s’agit de la gagnante.

Dans un cadre business, il s’agit d’une distinction cruciale. Lorsque vous effectuez votre test A/B, ce que vous êtes réellement en train de décider, c’est si vous devez passer de la variation A à la variation B. Il ne s’agit pas de choisir A ou B en partant de zéro. Il faut donc prendre en compte :

Le coût de mise en oeuvre du passage à la variation B (temps, ressources, budget)
Les coûts additionnels liés à la variation B (coûts de la solution, licences…)

Prenons un exemple : imaginons que vous commercialisez un logiciel B2B et que vous exécutez un test A/B sur votre page tarifs. La variation B comprenait un chatbot, absent dans la variation A. La variation B a surperformé par rapport à la A mais pour l’implémenter, il faudra deux semaines à un développeur pour intégrer le chatbot à votre workflow de lead nurturing. En outre, il faudra dégager X euros de budget marketing pour payer la licence mensuelle du chatbot.

via GIPHY

Il faut être sûr de votre calcul et qu’il est plus rentable d’opter pour la version B en comparant ces coûts avec le gain estimé par le test. C’est exactement ce que permet l’approche bayésienne.

Prenons un exemple en observant l’interface de reporting AB Tasty.

Dans ce test fictif, nous mesurerons trois variations contre une version d’origine en prenant les « Clics CTA » comme KPI.

AB Tasty reporting

On peut constater que la grande gagnante semble être la variation 2, avec un taux de conversion de 34,5 %, comparé à 25 % pour la version d’origine. Mais en regardant à droite, nous pouvons aussi voir l’intervalle de confiance de ce gain. Autrement dit, nous tenons compte du meilleur et du pire scénario.

Le gain médian de la variation 2 s’élève à 36,4 %. Ici le gain le plus faible possible est + 2,25 % et le plus élevé, 48,40 %. Il s’agit des bornes de gain les plus faibles et les plus élevés que vous pouvez obtenir dans 95 % des cas. Si l’on décompose les choses davantage :

Il y a 50 % de chances que le pourcentage de gain percentage soit supérieur à 36,4 % (la médiane)
Il y a 50 % de chances qu’il soit inférieur à 36,4 %.
Dans 95 % des cas, le gain sera dans la fourchette entre + 2,25 % et + 48,40 %.
Il reste 2,5 % de chances que le gain soit inférieur à 2,25 % (le fameux cas du faux positif) et 2,5% de chances qu’il soit supérieur à 48,40 %.

Ce niveau de granularité peut vous aider à choisir de déployer ou non la variation gagnante d’un test sur votre site internet. Les extrémités les plus faibles et les plus élevées de vos marqueurs de gain sont positives ? Fantastique ! L’intervalle de confiance est étroit, donc vous êtes convaincu d’un gain élevé ? Implémenter la version gagnante est alors probablement la bonne décision. Votre intervalle est large mais les coûts d’implémentation sont bas ? Là encore, il n’y a pas de mal à se lancer. En revanche, si votre intervalle est large et que les coûts d’implémentation sont conséquents, il vaut sans doute mieux attendre d’avoir davantage de données pour réduire cet intervalle. Chez AB Tasty, nous recommandons généralement :

D’attendre avant d’avoir enregistré au moins 5 000 visiteurs uniques par variation ;
De faire durer le test au moins 14 jours (deux cycles commerciaux) ;
D’attendre d’avoir atteint 300 conversions sur votre objectif principal.

Data peeking

Les statistiques bayésiennes offrent un autre avantage : grâce à elles, vous pouvez jeter un coup d’œil aux résultats de vos données pendant un test (sans en abuser tout de même !).

Imaginons que vous travaillez pour une grande plateforme d’e-commerce et que vous effectuez un test A/B concernant une nouvelle offre promotionnelle. Si vous remarquez que la variation B affiche des résultats pitoyables (vous faisant perdre beaucoup d’argent au passage), vous pouvez stopper le test immédiatement !

A l’inverse, si votre test surperforme, vous pouvez transférer tout le trafic de votre site web vers la version gagnante plus rapidement que si vous employiez la méthode fréquentiste.

C’est la logique précise qui gouverne notre fonctionnalité d’allocation dynamique de trafic… qui n’aurait jamais été possible sans M. Thomas Bayes !

Allocation dynamique de trafic

Si nous nous arrêtons rapidement sur le sujet de l’allocation dynamique de trafic, nous verrons qu’elle est particulièrement utile dans un cadre commercial ou dans des contextes instables ou limités en termes de temps.

AB Tasty dynamic traffic allocation bayesian

L’option d’allocation dynamique de trafic dans l’interface AB Tasty

L’allocation dynamique de trafic (automatisée) permet essentiellement de trouver l’équilibre entre l’exploration et l’exploitation des données. Les données du test font l’objet d’une « exploration » suffisamment approfondie pour être certain de la conclusion et elles sont « exploitées » suffisamment tôt pour de ne pas perdre inutilement des conversions (ou tout autre KPI). Il faut souligner que ce processus ne se fait pas manuellement : ce n’est pas une personne en chair et en os qui interprète ces résultats et prend la décision. Au lieu de cela, un algorithme va faire ce choix pour vous automatiquement.

Dans la pratique, les clients AB Tasty cochent la case correspondante et choisissent leur KPI principal. L’algorithme de la plateforme déterminera alors s’il faut rediriger la majorité de votre trafic vers une variation gagnante et du moment opportun pour le faire.

Ce type d’approche est particulièrement utile dans les situations suivantes :

Pour optimiser les micro-conversions dans un délai court
Lorsque la durée du test est courte (par exemple, lors d’une promotion pendant les fêtes)
Lorsque votre page cible génère peu de trafic
Lorsque vous testez plus de six variations

S’il faut bien réfléchir au moment opportun pour utiliser cette option, il est particulièrement utile de l’avoir sous le coude.

Les faux positifs

Tout comme les méthodes fréquentistes, les statistiques bayésiennes comportent un risque de ce que l’on appelle le faux positif.

Comme vous pouvez le deviner, un faux positif se produit lorsque le résultat d’un test indique qu’une variation affiche une amélioration, alors que ce n’est pas le cas. En matière de faux positifs, il arrive souvent que la version B donne les mêmes résultats que la version A (et non pas qu’elle soit moins performante que la version A).

Loin d’être inoffensifs, les faux positifs ne sont certainement pas une raison d’abandonner l’A/B testing. Vous pouvez plutôt ajuster votre intervalle de confiance pour l’adapter au risque lié à un potentiel faux positif.

La probabilité de gain par les statistiques bayésiennes

Vous avez probablement déjà entendu parler de la règle de probabilité de gain de 95 %.

Autrement dit, on considère qu’un test est statistiquement significatif lorsque l’on atteint un seuil de certitude de 95 % : vous êtes sûr à 95 % que votre version B performe comme indiqué, mais il existe toujours 5 % de risques que ce ne soit pas le cas.

Pour de nombreuses campagnes marketing, ce seuil de 95 % est probablement suffisant. Mais si vous menez une campagne particulièrement importante dont les enjeux sont considérables, vous pouvez ajuster votre seuil de probabilité de gain pour qu’il soit encore plus précis : 97 %, 98 % ou même 99 %, excluant ainsi pratiquement le moindre risque de faux positif.

Si l’on peut penser qu’il s’agit d’une valeur sûre (et c’est la bonne stratégie pour les campagnes de premier plan), il ne faut pas l’appliquer à tout va.

Voilà pourquoi :

Pour atteindre ce seuil plus élevé, vous devez attendre les résultats plus longtemps, ce qui vous laisse moins de temps pour récolter les bénéfices d’une issue positive.
De manière implicite, vous n’obtiendrez un gagnant qu’avec un gain plus important (ce qui est plus rare), et vous abandonnerez les améliorations mineures qui peuvent quand même changer la donne.
Si vous avez un faible volume de trafic sur votre page web, vous voudrez peut-être envisager une approche différente.

Les tests bayésiens limitent les faux positifs

Il faut également garder en tête que puisque l’approche bayésienne fournit un intervalle de gain et que les faux positifs n’apparaissent virtuellement que légèrement meilleurs qu’en réalité, vous n’avez alors que très peu de chances d’implémenter un faux positif.

Prenons un scénario courant pour illustrer ce propos. Imaginons que vous exécutiez un test A/B pour vérifier si le nouveau design d’une bannière promotionnelle augmente le taux de clics sur le CTA. Votre résultat indique que la version B est plus performante avec une probabilité de gain à 95 % mais le gain est infime (amélioration médiane d’1 %). Même s’il s’agit d’un faux positif, il y a peu de chances que vous déployez la version B de la bannière sur l’ensemble de votre site car les ressources nécessaires à son implémentation n’en vaudraient pas la peine.

Mais, comme l’approche fréquentiste ne fournit pas cet intervalle de gain, vous seriez plus tenté de mettre en place le faux positif. Certes, ce ne serait pas la fin du monde : la version B offre certainement la même performance que la version A. Cependant, vous gaspilleriez du temps et de l’énergie sur une modification qui ne vous apporterait aucune valeur ajoutée.

Ce qu’il faut retenir ? Si vous jouez la carte de la sécurité et que vous attendez un seuil de confiance trop élevé, vous passerez à côté de plusieurs petits gains, ce qui serait également une erreur.

En conclusion

Alors, quelle approche est la meilleure : fréquentiste ou bayésienne ?

Comme nous l’avons déjà évoqué, les deux approches sont des méthodes statistiques parfaitement valables.

Mais chez AB Tasty, nous avons choisi l’approche bayésienne car nous estimons qu’elle aide nos clients à prendre de meilleures décisions commerciales. Elle permet également une plus grande flexibilité et une maximisation des bénéfices (allocation dynamique de trafic). En ce qui concerne les faux positifs, ils peuvent survenir que vous optiez pour l’approche fréquentiste ou bayésienne… mais il y a de moins de risque que vous vous y laissiez prendre avec cette dernière. Au bout du compte, si vous cherchez une plateforme d’A/B testing, l’important est d’en trouver une qui vous fournira des résultats fiables et facilement interprétables.

Vous aimeriez aussi...

Voir tous

Article

4min lecture

Du bio, du beau et de la data : la recette Mademoiselle bio

Selima Ben Cheikh

27 Mai 2025

Article

2min lecture

Remettez la souveraineté digitale au cœur de votre stratégie d’expérimentation : découvrez Domain Delegation par AB Tasty

AB Tasty

21 Mai 2025

Article

6min lecture

Minimal Detectable Effect (MDE) : l’allié indispensable de vos tests A/B

Hubert Wassner

6 Mai 2025

Abonnez-vous à
notre Newsletter

Article

28 Jan 2020

9min lecture

E-commerce : quels sont les jours et les heures “chaudes” ?

Hubert Wassner

Dans le domaine de l’amélioration des conversion (CRO), on étudie peu l’aspect temporel des données que l’on manipule. En pratique, les expériences sont toujours effectuées simultanément, justement pour s’abstraire de toute fluctuation temporelle. Les tests statistiques utilisés reflètent bien cette approche : seules les sommes des nombres de visiteurs et de conversions effectuées sur la période sont utilisés pour identifier la variation gagnante. Cependant, l’aspect temporel de ces données est très intéressant à étudier. Focus sur les quelques insights qui permettent de comprendre le pourquoi de certaines règles empiriques d’expérimentation. Et comme le dit l’adage : “Le temps, c’est de l’argent”.

Comment exploiter les données ?

Nous avons exporté un mois de données de conversions (c’est-à-dire d’achats) d’une plateforme e-commerce, et notamment l’heure à laquelle ces achats ont eu lieu. Plus exactement, la donnée utilisée est ce ce qu’on appelle le timestamp ou horodatage en français : on sait donc très précisément quand la vente a eu lieu et accessoirement quel appareil a été utilisé (ordinateur de bureau, tablette ou mobile). Pour le moment, seule la colonne “time” nous intéresse, on considérera donc l’ensemble des devices. Il s’agit d’une seule enseigne, mais la plupart des sites similaires présentent des résultats globalement identiques.

Pour rendre ces données plus facilement lisibles, on utilise la technique de “fenêtre glissante”. On définit la taille d’une fenêtre (ici : une heure), on comptabilise le nombre d’achats faits durant cette période – ce qui nous donne un point de la courbe -, puis on déplace la fenêtre d’une demi-heure, et on recommence. Résultat, on obtient une courbe telle que celle ci :

Sur l’axe horizontal est représenté le temps (avec pour unité, l’heure). L’axe vertical représente quant à lui le nombre de ventes réalisées dans une fenêtre.

On remarque tout de suite l’alternance jour / nuit, avec un pic de conversions le jour et un creux la nuit, ce qui peut sembler logique. Mais ce point n’est pas si évident : les données ne tombent jamais complètement à 0, même au milieu de la nuit !

Si on zoome, on observe que, même à l’intérieur de la journée, il existe probablement des “régimes” différents. Toutefois, il y a trop de “bruit” pour bien voir ce qu’il se passe…

Quel modèle d’analyse des données ?

Étant donné la nature cyclique de ce type de data, il existe un moyen intuitif de réduire ce bruit aléatoire. Imaginez que l’on replie ce graphe sur lui-même pour superposer chaque heure avec la même heure des autres jours. Il n’y aurait alors plus qu’à faire la moyenne, en espérant que la partie aléatoire s’annule avec elle-même, laissant apparaître la tendance de fond qui régit une journée.

Malheureusement, en pratique, cela fonctionne difficilement car il y a aussi des variations importantes selon les jours de la semaine. Typiquement, le profil journalier d’un lundi est différent de celui d’un samedi par exemple, et faire la moyenne des deux ne donnera pas une mesure plus précise, au contraire. Pour contourner ce problème, une solution consiste à construire un modèle bayésien hiérarchique (avec la librairie Pymc3) qui reflète ce processus complexe. Schématiquement, cela veut dire qu’on considère qu’il y a un modèle d’un profil journalier général, assez souple pour englober les spécificités des différents jours de la semaine.

Le profil journalier

Sur ce schéma, on représente le profil d’une journée type. L’axe horizontal représente le temps en heure et l’axe vertical représente le nombre de ventes réalisées durant cette heure. Le tracé plein représente le “centre” du modèle, les tracés en pointillés en illustre les “extrémités”.

On constate que le creux d’activité se situe entre minuit et 5h du matin. L’activité démarre doucement après 5-6 heures du matin pour atteindre un plateau vers 10h, en légère croissance jusqu’à 20h. On note aussi qu’il peut y avoir un pic après 20h. Nous allons donc voir, dans la partie suivante, que ce pic n’existe que certains jours de la semaine. Voilà pourquoi le modèle général de jour l’intègre même s’il n’est pas représenté de manière “central”.

Le profil hebdomadaire

On crée maintenant un modèle par jour de la semaine, dérivant du modèle général. En terme bayésien, on dit que le profil journalier général est un prior pour le profil des jours spécifiques de la semaine. L’avantage de cette approche est qu’elle permet d’affiner les mesures même avec peu de données. Par exemple, sur un mois de données, on a 30 jours pour modéliser l’évolution horaire au cours d’une journée, typiquement l’alternance jour / nuit. Sur une telle mesure globale, il n’y a alors besoin que de peu d’exemples pour affiner le déroulement de chaque jour de la semaine, qui sont tous subtilement différents les uns des autres.

Nous allons maintenant regarder les profils des différents jours de la semaine.

Première constatation : seule l’alternance jour / nuit est commune à chaque jour de la semaine. Pour autant, chaque jour semble avoir un profil très différent.

Ce point met en lumière un conseil d’expérimentation en CRO : il faut tester sur une période couvrant tous les jours de la semaine. Donc même si un site a suffisamment de trafic pour générer des données significatives avec seulement une journée de trafic, il est fortement déconseillé de le faire. Le comportement des visiteurs n’est pas le même selon le jour de la semaine.

Pour faciliter la lecture de ces courbes, nous allons donc les représenter sur des graphiques différents.

Sur ce graphique-ci, nous avons regroupé des profils journaliers similaires : lundi, mardi, jeudi, dimanche. On remarque alors :

Un plateau de 10h à 20h.
Un pic d’activité vers 21h
Chose intéressante, le “dimanche est un jour de semaine”. C’est même ce jour-là que le pic est le plus haut (vers 20h). La seule différence notable avec un jour de semaine est que l’activité démarre plus tardivement.

Les jours restants : mercredi, vendredi, samedi ont des profils nettement différents.

Le mercredi, même si son allure générale a l’air de ressembler à un lundi ou à un mardi, l’activité est significativement plus importante. C’est d’ailleurs la journée où il y a le plus d’achat (presque 20% de plus). L’activité de l’après-midi est quasiment à la hauteur du pic maximal de 20h. Donc faire un test A/B uniquement sur ce jour risque fort d’amener à des conclusions erronées. Car même si c’est le jour le plus actif, cela ne représente que près de 20% de l’activité totale.
Le vendredi est nettement le jour le plus calme de la semaine, on peut aussi noter (comme le samedi) l’absence totale du pic de 20h.
Le samedi, le pic de 20h est absent, mais on note aussi un démarrage d’activité notablement plus tardive (comme le dimanche).

Conclusions

Nous avons donc vu comment il était possible d’extraire des profils d’activité à partir de données temporelles. De même, des spécificités e-commerce (par opposition au commerce classique) sont apparues :

Le mercredi est la plus grosse journée (presque 20% de plus que les autres jours !).
Le vendredi et le samedi sont les moins bonnes journées.
Le dimanche, par contre, contrairement au commerce classique, est tout à fait comparable aux jours les plus actifs.
Le soir (après 20h) est une heure généralement propice aux achats…
…Sauf les vendredis et samedis soirs où l’activité chute après 20h (en plus d’être de base plus basse que les autres jours).
Et, naturellement, les samedis et dimanches matins sont peu actifs…

Ces constats confirment l’importance de faire durer les tests A/B au minimum sur une, idéalement deux, semaines complètes, et ce quel que soit le volume de trafic. Vous pourrez ainsi bien couvrir les comportements très différents que l’on peut observer selon les jours de la semaine.
Attention toutefois : cela n’est pas pris en compte dans les tests statistiques qui ne tiennent compte que du nombre total de visiteurs et de conversions pour chaque variation.

Dans un prochain article, nous nous intéresserons donc aux différences selon le type de device utilisé…

Vous aimeriez aussi...

Voir tous

Article

4min lecture

Du bio, du beau et de la data : la recette Mademoiselle bio

Selima Ben Cheikh

27 Mai 2025

Article

2min lecture

Remettez la souveraineté digitale au cœur de votre stratégie d’expérimentation : découvrez Domain Delegation par AB Tasty

AB Tasty

21 Mai 2025

Article

6min lecture

Minimal Detectable Effect (MDE) : l’allié indispensable de vos tests A/B

Hubert Wassner

6 Mai 2025

Abonnez-vous à
notre Newsletter

Article

12 Déc 2019

7min lecture

Le problème, c’est le choix : les limites de l’A/B testing

Hubert Wassner

Qu’est-ce que la méthode d’A/B testing ? Il s’agit de comparer deux versions d’une même page web ou d’une application entre elles dans le but de déterminer la plus performante. Le principe de fonctionnement repose sur l’analyse statistique qui permet alors de définir quelle version est plus efficace selon l’objectif de conversion fixé. À quoi sert précisément l’A/B testing ? Dans quels cas particuliers l’appliquer ? Et pour quels résultats ? Tour d’horizon.

À qui s’adresse plus particulièrement l’A/B testing ? La méthode est principalement utilisée au sein des directions marketing des entreprises de toutes tailles, et de tous secteurs, en tant que technique d’optimisation du taux de conversion (Conversion Rate Optimization – CRO). Toutefois, la méthodologie n’est pas sans poser problème : en effet, les limites des analyses statistiques utilisées se retranscrivent sous forme de limites marketing.

Pour mieux comprendre, il est important de plonger dans les subtilités de l’A/B testing.

Le graal des spécialistes marketing : les décisions business basées sur l’A/B testing

Pour les directeurs Marketing, la prise de décisions a pour objectif d’accroître le chiffre d’affaires. Résultat, une majorité d’entre eux se creusent la tête pour répondre à ces questions :

Est-il nécessaire de diminuer le prix pour vendre plus ?
Ou, au contraire, les augmenter pour améliorer le panier moyen, au risque d’obtenir un taux de conversion inférieur ?
Les produits doivent-ils être classés par ordre de prix croissants ? Ou décroissants ?
Devez-vous élargir votre gamme de produits ou la restreindre ? Ou les deux ? Ou ne rien changer ?
Les promos de type « 3 produits achetés pour le prix de 2 » sont-elles un bon moyen d’augmenter votre panier moyen ?
Est-il préférable de proposer la livraison gratuite sans condition de dépenses ou à partir d’une certaine valeur de panier ?

Et si vous pouviez tester vos hypothèses business pour prendre la bonne décision ?
Malheureusement, les analyses statistiques utilisées aujourd’hui sont très limitées en termes d’interprétation des résultats.

Le principe de base de l’A/B testing

Pour rappel, le test consiste à exposer deux variantes de la même page (nommées A et B) à deux populations homogènes en séparant de façon aléatoire les visiteurs du site. Pour chaque variation, les donnés suivantes sont collectées :

Le nombre de visiteurs
Le nombre d’achats
La valeur du panier d’achat

Sur le papier, il devrait être relativement simple de définir quelle variation a généré le plus de revenus et, par conséquent, de déterminer quelle version est la plus performante. Néanmoins, comme n’importe quelle expérience sur le comportement humain, les données sont soumises au hasard. Résultat : si la variation B génère un panier moyen plus important que la variation A, cela ne signifie pas pour autant que B sera toujours meilleur que A.

La raison ? Difficile d’affirmer que la différence observée pendant un test sera répétée dans le futur. Voilà pourquoi les outils d’A/B testing utilisent des analyses statistiques pour qualifier les différences observées et identifier la variation la plus pertinente. Objectif : aider à séparer les données significatives des fluctuations aléatoires et imprévisibles qui ne sont pas corrélées aux différences entre les variations.

« Le problème, c’est le choix »

En e-commerce, la variation B peut être considérée comme la meilleure si elle génère :

Un gain de conversions : la variation amène à convertir plus d’achats
Un gain au niveau du panier d’achat moyen : le panier moyen de la variation B est supérieur à celui de la variation A
Un gain « mixte » : la variation B génère à la fois plus de conversions et un panier moyen plus élevé

Le gain de conversions

C’est la donnée la plus simple à analyser dans la méthode d’A/B testing. L’outil statistique utilisé : le test Bayésien. La caractéristique fonctionnelle la plus importante de ce test repose sur l’intervalle de confiance du gain de conversion mesuré.

Par exemple : on peut dire que la variation B produit un gain de 5 à 10 % – ce qui signifie que la variation B générerait entre 5 et 10 % d’achats supplémentaires par rapport à la variation A. Dans ce cas, il est facile de déterminer que la variation B est plus performante. Vous pouvez alors la valider en tant que « meilleure variation » et la proposer à l’ensemble de votre audience…

… Mais est-ce vraiment suffisant pour définir de façon définitive quelle est la variation la plus pertinente ? C’est ce que nous allons voir dans la suite de cet article.

Le gain de panier moyen

Cet indicateur est bien plus complexe à analyser. Les outils d’A/B testing utilisent le test Mann-Whitney U, également appelé Wilcoxon. Contrairement au test Bayésien, cette analyse ne fournit qu’une simple probabilité de gain sans préciser l’importance du gain. Par exemple, vous mesurez une différence de +5€ dans le panier moyen relatif à la variation B, ainsi qu’une probabilité de gain (donné par le test Mann-Whitney) à 98 %. Vous pourriez croire que ce gain de 5€ est sûr à 98 %, mais en réalité, il se peut que vous n’obteniez qu’un gain de +0,1€. L’analyse statistique a toujours raison : c’est un gain ! C’est simplement que le test Mann-Whitney ne prédit que l’existence du gain, pas de quel montant il sera !

Mais le pire est qu’une variation « gagnante » en termes de taille de panier moyen selon le test de Mann-Whitney pourrait en réalité générer moins de revenus, en raison de la présence de valeurs extrêmes qui faussent l’analyse. Comment l’éviter ? Une option pourrait être de supprimer ces valeurs avant d’analyser les résultats. Toutefois, il est à noter que cette solution n’en reste pas moins inévitablement biaisée : la variation la plus performante ne dépend que de la ligne « valeurs extrêmes » que vous aurez artificiellement définies.

Le gain mixte

Le moyen le plus efficace d’identifier la meilleure variation est de déterminer un gain significatif à la fois en termes de conversion et de panier moyen. En réalité, c’est même le seul cas où une décision peut être prise sans le moindre doute !

Vous observez un certain gain de conversion mais une perte de panier moyen → impossible de prendre une décision avisée car vous ne connaissez pas le montant de la perte, et ignorez si le gain obtenu va compenser cette perte.
L’analyse démontre une perte de conversions et un gain dans le panier d’achat moyen → même constat.
Perte ou gain indéfini dans le panier moyen → si vous ne connaissez pas l’évolution du panier moyen, impossible d’être sûr de la pertinence de la variation.

Ce dernier scénario représente la situation le plus courante. En effet, les statistiques liées au panier moyen nécessitent généralement plus d’informations que le taux de conversion afin de proposer une analyse pertinente.

Comme vous pouvez le constater, la majorité de tests A/B concluent à la certitude d’un gain de conversion. Mais sans information sur l’évolution du panier moyen, ces conclusions doivent être remises en question. On pourrait alors argumenter que c’est la raison pour laquelle on parle « d’optimisation du taux de conversion » plutôt que « d’optimisation business ».

Faut-il alors en conclure que l’A/B testing ne sert à rien ? Heureusement non ! Aujourd’hui, la plupart des tests A/B se concentrent sur l’expérience utilisateur, l’interface utilisateur et le design : couleurs, formulation, visuels, mise en pages d’un produit… En marketing, on parle de « réduire la friction du parcours d’achat », en d’autres termes, limiter le nombre de visiteurs insatisfaits et qui quittent le site sans avoir effectué le moindre achat.

Mais pour pouvoir aller plus loin que les tests basés sur l’ergonomie et s’attaquer aux vraies questions de marketing, nous avons besoin d’inventer le prochain test Mann-Whitney qui sera capable d’estimer la taille du gain ou de la perte générée par l’expérimentation. Voilà qui donnera définitivement un second souffle à l’A/B testing.

Revoir l’intervention de notre Chief Data Scientist, Hubert Wassner, et d’Aurélie Bastian, Manager Web Analytics et Conversion de Sutter Mills, à l’occasion de Digital Innovation 2019.