Dans toute expérience réalisée, nous nous appuyons souvent sur des probabilités pour prouver (ou réfuter) une hypothèse.
Par exemple, lors d’un test A/B, nous cherchons généralement à obtenir des résultats statistiquement significatifs. Les tests A/B sont un moyen efficace de tester vos fonctionnalités sur un échantillon d’utilisateurs pour vous assurer qu’elles fonctionnent comme prévu avant de les déployer à tous vos utilisateurs.
Cependant, comme ces tests sont toujours basés sur des probabilités, aucune vérification d’hypothèse ne peut être totalement certaine. C’est pourquoi il est possible de tirer des conclusions erronées, entraînant des erreurs dites de type I et type II.
Signification statistique
Le terme « signification statistique » est ce que tout test cherche à déterminer. Dans les expériences que vous menez, vous souhaitez vous assurer qu’une relation réelle existe entre les variables proposées dans votre hypothèse, ce qui constitue l’objectif principal des tests A/B.
Un résultat statistiquement significatif signifie que le résultat est très peu susceptible d’être dû au hasard et peut être attribué à une cause spécifique ou une tendance.
Concrètement, cela signifie que l’écart ou la différence entre les variantes et le contrôle n’est pas dû au hasard mais à une expérience bien menée. Cela reflète votre tolérance au risque et votre niveau de confiance.
Par exemple, si vous exécutez un test A/B avec un niveau de confiance de 95 %, cela signifie que vous pouvez être sûr à 95 % que les résultats obtenus sont réels et non le fruit du hasard.
Cependant, comme tout test basé sur des statistiques et des probabilités, il existe deux types d’erreurs qui peuvent apparaître dans vos résultats.
Vérification d’hypothèse
Avant de plonger plus profondément dans les erreurs de type I, il est utile de donner un aperçu de ce qu’est la vérification d’hypothèse.
Une vérification d’hypothèse consiste à tester une hypothèse par rapport à son opposé afin de déterminer si elle est vraie ou non. Dans ce cas, vous avez l’hypothèse nulle et l’hypothèse alternative.
Un test statistique est utilisé pour déterminer une conclusion possible entre ces deux hypothèses opposées.
L’hypothèse nulle postule qu’il n’existe aucune relation entre les deux phénomènes proposés, tandis que l’hypothèse alternative est l’opposé de l’hypothèse nulle.
Les p-values utilisées dans les tests statistiques aident à décider si l’hypothèse nulle doit être rejetée. Plus la valeur est petite, plus il est probable que vous rejetiez l’hypothèse nulle. En d’autres termes, cela vous indique dans quelle mesure vos données auraient pu se produire sous l’hypothèse nulle.
La p-value est le plus souvent fixée à p < 0,05 pour déclarer une signification statistique.
Cependant, dans tout test statistique, il existe toujours un degré d’incertitude, ce qui signifie que le risque de commettre une erreur est élevé.
Le tableau suivant illustre ces erreurs par rapport à l’hypothèse nulle.
Erreur de type I
Une telle erreur est une erreur de type I (ou type 1), également appelée faux positif, qui correspond au rejet erroné de l’hypothèse nulle alors qu’elle est vraie. En d’autres termes, vous concluez que les résultats sont statistiquement significatifs alors qu’ils sont simplement le fruit du hasard ou de facteurs non liés.
Concrètement, une erreur de type I se produit lorsque le testeur valide une différence statistiquement significative alors qu’il n’y en a pas.
Dans un test A/B, une erreur de type I correspond à déclarer une mauvaise variante comme gagnante, même si le test effectué était non concluant. En tant que faux positif, vous croyez à tort qu’une variante a apporté une différence statistiquement significative.
Les erreurs de type I ont une probabilité « α » ou alpha corrélée au niveau de confiance que vous définissez. Par exemple, si vous fixez un niveau de confiance de 95 %, il y a 5 % de chances que vous commettiez une erreur de type I.
Conséquences des erreurs de type I
Une erreur de type I signifie supposer à tort que votre test a fonctionné alors qu’il ne l’a pas fait. Par conséquent, la principale raison de rester vigilant face à ces erreurs est qu’elles peuvent coûter très cher à votre entreprise en entraînant potentiellement une perte de ventes.
Par exemple, si vous testez un changement de couleur d’un bouton sur votre page d’accueil et que vous remarquez tôt que ce bouton a généré plus de clics, vous pourriez être convaincu que cette variante a fait une différence et décider de terminer le test prématurément en concluant à tort qu’il existe une corrélation entre ce changement de couleur et les taux de conversion.
Ainsi, vous déployez cette variante à tous vos utilisateurs pour découvrir, surprise, qu’elle n’a en fait eu aucun impact. Le résultat final est que vous pourriez risquer de nuire à votre taux de conversion client à long terme.
La meilleure façon d’éviter de telles erreurs peut être de prolonger la durée du test pour garantir que votre variante a surpassé le contrôle à long terme et d’augmenter la taille de l’échantillon.
Voir plus : Sample Size Calculator for A/B Testing
Erreur de type II
Les erreurs de type II (ou type 2), également appelées faux négatifs, se produisent lorsque vous ne rejetez pas l’hypothèse nulle alors qu’elle est fausse et que vous finissez par rejeter votre propre hypothèse et variante. Les erreurs de type II ont une probabilité « β » ou bêta.
Dans un test A/B, cela signifie que vous ne parvenez pas à conclure qu’il y a eu un effet alors qu’il y en avait un, et qu’aucun gagnant concluant n’est déclaré entre le contrôle et les variantes, bien qu’il devrait y en avoir un.
En d’autres termes, vous croyez qu’une variante n’a apporté aucune différence statistique et vous croyez à tort à l’hypothèse nulle, selon laquelle aucune relation n’existe, alors qu’elle existe.
Une erreur de type II est inversement liée à la puissance statistique d’un test, où la puissance est la probabilité qu’un test détecte un effet qui existe réellement. Plus la puissance statistique est élevée, plus la probabilité de commettre une erreur de type II est faible.
La puissance statistique dépend généralement de trois facteurs : la taille de l’échantillon, le niveau de signification et la « vraie » valeur de votre paramètre testé.
Conséquences des erreurs de type II
Tout comme les erreurs de type I, les erreurs de type II peuvent conduire à de fausses hypothèses et à de mauvaises décisions en concluant le test trop tôt.
De plus, obtenir de faux négatifs et ne pas remarquer l’effet de vos variantes peut conduire à des opportunités manquées, car vous ne tirez pas parti des possibilités d’augmenter votre taux de conversion.
Pour réduire le risque de telles erreurs, assurez-vous d’augmenter la puissance statistique de votre test, par exemple en ayant un échantillon suffisamment grand. Cela implique de collecter davantage de données sur une période plus longue pour éviter de tirer une conclusion erronée selon laquelle votre expérience n’a pas eu d’impact, alors que c’est le contraire qui est vrai.
La probabilité de commettre des erreurs de type I et II est représentée dans l’image ci-dessous, où la distribution de l’hypothèse nulle montre tous les résultats possibles si l’hypothèse nulle est vraie, tandis que l’hypothèse alternative montre tous les résultats possibles si l’hypothèse alternative est vraie.
Comme vous pouvez le constater, les erreurs de type I et II se produisent là où ces deux distributions se chevauchent.
En résumé
Considérons ces deux scénarios :
Si vos résultats démontrent une signification statistique, cela signifie qu’il y a une différence entre les variantes. Dans ce cas, vous pouvez rejeter l’hypothèse nulle. Cependant, cela pourrait parfois être une erreur de type I.
Si vos résultats ne montrent pas de signification statistique, alors l’hypothèse nulle ne peut être rejetée. Cela pourrait également parfois être une erreur de type II.
En fin de compte, il est important de trouver un équilibre entre la probabilité de commettre des erreurs de type I et de type II. Beaucoup considèrent que les erreurs de type I sont plus dommageables, car elles peuvent entraîner des changements inutiles qui gaspillent des ressources et coûtent du temps et de l’argent, tandis que les erreurs de type II concernent davantage des « opportunités manquées » (bien qu’elles puissent également avoir des conséquences significatives).
L’essentiel à retenir est que les tests A/B reposent sur des probabilités statistiques, ce qui signifie que les résultats obtenus ne sont jamais totalement certains.
Néanmoins, ces tests constituent un outil précieux pour aider les marketeurs à augmenter les ventes et le taux de conversion. Même si vos résultats ne sont pas aussi certains que vous le souhaiteriez, vous pouvez toujours augmenter la probabilité que les résultats du test soient fiables en évitant les erreurs mentionnées ci-dessus.
Pour réduire les probabilités d’erreur, la clé est d’augmenter la taille de l’échantillon et de prolonger la durée des tests afin de collecter des données aussi précises que possible et d’augmenter la crédibilité des résultats de vos tests.
avec ABTasty
Obtenez une démo personnalisée de la plateforme
Demander une démo