Article

6min lecture

Minimal Detectable Effect (MDE) : l’allié indispensable de vos tests A/B

En CRO, un dilemme courant est de ne pas savoir quoi faire d’un test qui présente un gain faible et non significatif.

Faut-il le déclarer « perdant » et passer à autre chose ? Ou faut-il collecter davantage de données dans l’espoir qu’il atteigne le seuil de significativité fixé ?

Malheureusement, nous faisons souvent le mauvais choix, influencés par ce qu’on appelle la « théorie de l’engagement ». Nous avons déjà déployé tellement d’énergie à créer ce test, attendu les résultats si longtemps, que nous ne voulons pas nous arrêter là sans rien obtenir de ce travail.

Cependant, l’essence même du CRO est d’expérimenter, et cela implique d’accepter qu’une partie des expériences ne donnera rien. Pourtant, certains de ces échecs pourraient être évités avant même de commencer, grâce à un concept statistique : le MDE (Minimal Detectable Effect), que nous allons explorer ensemble.

MDE : Le seuil de détection minimal

Dans la pratique des tests statistiques, les échantillons ont toujours été précieux, peut-être encore plus dans le cadre de sondages qu’en CRO. En effet, mener des entretiens pour interroger les gens est bien plus complexe et coûteux que de préparer un test A/B sur un site web.

Les statisticiens ont donc créé des formules qui permettent de relier les paramètres principaux d’une expérience à des fins de planification :

  • Le nombre d’échantillons (ou visiteurs) par variation
  • Le taux de conversion de référence
  • L’ampleur de l’effet que l’on espère observer

Cela permet d’estimer le coût de collecte d’échantillons. Le problème est que, parmi ces trois paramètres, un seul est connu : le taux de conversion de référence. Nous ne connaissons pas vraiment le nombre de visiteurs que nous allons envoyer par variation. Il dépend du temps que nous allons attribuer à la collecte de données de ce test, et idéalement, nous l’aimerions le plus court possible.

Enfin, le gain de conversions que nous observerons à la fin de l’expérience est certainement la plus grande inconnue, puisque c’est précisément ce que nous cherchons à déterminer.

Alors, comment faire avec autant d’inconnues ? La solution consiste à estimer celles que nous pouvons grâce à des données historiques. Pour les autres, nous allons créer plusieurs scénarios possibles :

  • Le nombre de visiteurs peut être estimé à partir du trafic passé, et nous pourrons faire des projections par blocs d’une semaine.
  • Le taux de conversion peut également être estimé à partir de données passées.
  • Pour chaque configuration de scénario issu des paramètres précédents, nous pourrons calculer les gains de conversions minimaux (MDE) qu’il faudrait avoir pour atteindre le seuil de significativité.

Par exemple, avec un trafic de 50 000 visiteurs et un taux de conversion de 3 % (mesuré sur 14 jours), voici ce que nous obtenons :

  • L’axe horizontal indique le nombre de jours.
  • L’axe vertical indique le MDE correspondant au nombre de jours.

Le point le plus à gauche de la courbe nous indique que si nous obtenons un gain de conversion de 10 % au bout de 14 jours, alors ce test sera gagnant, car ce gain pourra être considéré comme significatif. Typiquement, il aura un indicateur de chance d’être supérieur à l’original de 95 %. Si nous pensons que la modification que nous avons faite dans la variation a une chance d’améliorer la conversion de ~10 % (ou plus), alors ce test vaut la peine d’être lancé, et nous pouvons espérer un résultat significatif en 14 jours.

En revanche, si la modification est peu importante et que l’espoir de gain est plus faible que 10 %, alors 14 jours ne seront pas suffisants. Pour en savoir plus, nous allons déplacer le curseur de la courbe vers la droite. Cela correspond à ajouter des jours à la durée de l’expérience, et nous voyons alors comment évolue le MDE.

Naturellement, la courbe de MDE décroît : plus nous collectons de données, plus le test sera sensible à des effets plus petits.

Par exemple, en ajoutant une semaine de plus, soit une expérience de 21 jours, on constate que le MDE descend à 8,31%. Est-ce qu’on considère que cela est suffisant ? Si oui on peut valider le fait de créer cette expérience. 

Si ce n’est pas le cas, alors on continue à explorer la courbe jusqu’à trouver une valeur qui correspond à notre objectif. En continuant sur la courbe, nous voyons qu’un gain de l’ordre de 5,44 % nécessitera d’attendre 49 jours. 

C’est le temps nécessaire pour collecter suffisamment de données afin de pouvoir déclarer ce gain significatif. Si c’est trop long pour votre planification, il est alors probable que vous décidiez de réaliser un test au contenu plus ambitieux pour espérer un gain plus important, ou bien simplement de ne pas faire ce test et d’utiliser ce trafic pour une autre expérience.

Cela vous évitera de vous trouver dans la situation décrite au début de cet article, où vous allez gâcher du temps et de l’énergie dans une expérience vouée à l’échec.

Du MDE au MCE

Une autre approche du MDE est de le voir comme un MCE : Minimum Caring Effect. Cela ne change rien à la méthodologie si ce n’est le sens que vous accordez à la définition du seuil minimal de sensibilité de votre test. Jusqu’à présent on a considéré qu’il s’agissait d’une estimation de l’effet que la variation pouvait produire. Mais il peut aussi être intéressant de considérer la sensibilité minimale en fonction de son intérêt opérationnel: le MCE.

Prenons un exemple, imaginons qu’on puisse chiffrer le coût de développement de la variation ainsi que sa mise en production et qu’on puisse le comparer à l’application d’un gain de conversion sur une période d’une année. On serait alors en mesure de se dire qu’une augmentation du taux de conversion inférieur à 6% mettrait plus d’une année à couvrir les coûts de mise en place.

Ainsi, même si on dispose de suffisamment de trafic pour qu’un gain de 6% soit significatif, il n’a peut-être pas d’intérêt opérationnel, dans ce cas il est inutile de pousser l’expérimentation au-delà de la durée correspondante à ce 6%.

Dans notre cas on pourra donc conclure qu’il est inutile de dépasser les 42 jours d’expérimentation car au-delà de cette durée, si le gain mesuré n’est pas significatif cela veut dire que le gain réel est forcément inférieur à 6% et n’a donc pas d’intérêt opérationnel pour vous.

Conclusion

La fonctionnalité du calculateur de MDE va vous permettre de connaître la sensibilité de votre protocole d’expérience en fonction de sa durée. Il s’agit d’une aide précieuse lors de l’étape de planification de la feuille de route de vos tests. Cela permettra d’exploiter au mieux votre trafic et vos ressources.

Vous cherchez une calculatrice gratuite et minimaliste du Minimal Detectable Effect à essayer ? Consultez notre calculatrice MDE gratuite ici.

Abonnez-vous à
notre Newsletter

bloc Newsletter FR

AB Tasty traite et stocke vos données personnelles pour vous envoyer des communications tel que détaillé dans notre politique de confidentialité ici.