Article

17min lecture

Comment faire face à un faible trafic en CRO

Si le nombre de visiteurs sur votre site web n’est pas aussi élevé que vous l’espériez, cela ne signifie pas que vous devez abandonner vos objectifs CRO.

À ce stade, vous avez probablement remarqué que la plupart des conseils en matière de CRO sont adaptés aux sites web à fort trafic. Heureusement, cela ne veut pas dire que vous ne pouvez pas optimiser ce dernier, même en ayant un trafic plus faible.

La vérité est que n’importe quel site web peut être optimisé : il vous suffit d’adapter votre stratégie d’optimisation à votre situation spécifique.

Dans cet article, nous aborderons :

Commençons par une analogie

Pour faciliter la compréhension de cet article, commençons par une analogie. Imaginez : plutôt que de mesurer deux variations et de choisir un gagnant, nous mesurons les performances de deux boxeurs et plaçons des paris sur qui remportera les 10 prochains rounds.

Comment choisir sur qui parier ?

Imaginons que le boxeur A et le boxeur B soient tous les deux des débutants que personne ne connaît. Après le premier round, vous devez faire votre choix. En fin de compte, vous allez très probablement parier sur le boxeur qui a remporté le premier round. Cela peut être risqué si la marge de victoire est faible, mais en fin de compte, vous n’avez pas d’autre moyen de prendre votre décision.

Maintenant, imaginez que le boxeur A est connu comme un champion, et le boxeur B est un challenger que vous ne connaissez pas. Votre connaissance sur le boxeur A est ce que l’on appelle un « prior », à savoir des informations que vous obtenez en amont et qui influencent votre décision.

Sur la base de cette connaissance préalable, vous serez plus enclin à parier sur le boxeur A en tant que champion pour les prochains rounds, même si le boxeur B remporte le premier round avec une marge très faible.

De plus, vous ne choisirez le boxeur B comme champion prédit que s’il remporte le premier round avec une marge importante. Plus votre connaissance préalable est forte, plus la marge doit être grande pour vous convaincre de changer votre pari.

Vous suivez ? Si c’est le cas, les paragraphes suivants seront faciles à comprendre et vous comprendrez vite d’où vient ce « seuil de 95 % ».

Maintenant, passons aux conseils pour optimiser votre site web à faible trafic.

1. Résoudre le problème : « Je n’atteins jamais le seuil de certitude de 95% »

C’est le mécontentement qui revient le plus souvent concernant le CRO sur des sites web à faible trafic et sur les pages à faible trafic de plus grands sites web.

Avant d’approfondir ce problème, commençons par répondre à la question suivante : d’où vient cette « règle d’or » des 95% ?

L’origine du seuil de certitude de 95%

Commençons notre explication avec une idée très simple : que se passerait-il si les stratégies d’optimisation étaient appliquées dès le premier jour ? Si deux variantes sans historique étaient créées en même temps, il n’y aurait pas de version « originale » contestée par un nouvel arrivant.

Cela vous obligerait à choisir la meilleure dès le départ.

Dans ce cas, la moindre différence de performance pourrait être prise en compte pour prendre une décision. Après un court test, vous choisiriez la variante avec la meilleure performance. Il ne serait pas bon de choisir la variante qui a une performance inférieure et, de plus, ce serait insensé d’attendre un seuil de certitude de 95% pour choisir un gagnant.

Mais en pratique, l’optimisation est réalisée bien après le lancement d’une entreprise.

Ainsi, dans la réalité, il existe une version A qui existe déjà et un nouveau challenger (version B) qui est créé.

Si le nouveau challenger (la version B) arrive et que la différence de performance entre les deux variantes n’est pas significative, vous n’aurez aucun problème à déclarer que la version B n’est « pas un gagnant ».

Les tests statistiques sont symétriques. Donc, si nous inversions les rôles, en échangeant A et B dans le test statistique, cela indiquerait que l’original n’est pas significativement meilleur que le challenger. L’aspect « non concluant » du test est symétrique.

Alors, pourquoi orientez-vous 100% du trafic vers l’original à la fin d’un test non concluant, en déclarant implicitement A comme gagnant ? Parce que vous avez pris en compte trois connaissances préalables :

  1. La version A était le choix initial. Il a été élaboré par le créateur de la page.
  2. La version A a déjà été mise en œuvre et techniquement approuvée. La version B n’est généralement qu’une maquette.
  3. La version A dispose de nombreuses données pour prouver sa valeur, tandis que B est un challenger avec des données limitées qui ne sont collectées que pendant la période de test.

Les points 1 et 2 sont les bases d’une stratégie de CRO, vous devrez donc aller au-delà de ces deux points. Le point 3 explique que la version A dispose de plus de données pour étayer sa performance. Cela permet de comprendre pourquoi vous faites plus confiance à la version A qu’à la version B. 

Maintenant, vous comprenez que cette règle de seuil de certitude fixé à 95% est une façon d’expliquer des connaissances préalables. Et celles-ci proviennent principalement des données historiques.

Par conséquent, lors de l’optimisation d’une page à faible trafic, votre seuil de certitude devrait être inférieur à 95% car vos connaissances sur A sont plus faibles en raison de son trafic et de son ancienneté.

Ce seuil devrait être défini en fonction du volume du trafic qui a traversé le site web depuis son premier jour. Le problème avec cette approche, c’est que nous savons que les taux de conversion ne sont pas stables et qu’ils peuvent changer avec le temps. Pensez à la saisonnalité, par exemple l’afflux du Black Friday, les jours de congé, les périodes de Noël où l’activité augmente, etc. En raison de ces variations saisonnières, il n’est pas possible de comparer les performances à des périodes différentes.

C’est pourquoi les professionnels ne tiennent compte que des données pour la version A et la version B collectées pendant la même période, et ils fixent un seuil de certitude élevé (95%) pour accepter le challenger comme gagnant afin de formaliser les connaissances préalables solides en faveur de la version A.

Quel est le seuil de décision approprié lors d’un faible trafic ?

Il est difficile de suggérer un chiffre exact sur lequel se concentrer car cela dépend de votre tolérance au risque.

Selon le protocole de la méthode de  » test d’hypothèse », on doit fixer une période de collecte de données, et analyser seulement à la fin de cette période.

Cela signifie que le critère d’arrêt d’un test n’est pas une mesure statistique ou basée sur un nombre spécifique. Le critère d’arrêt devrait être une période de temps qui se termine. Une fois la période terminée, vous devez examiner les statistiques pour prendre une décision appropriée.

AB Tasty, notre logiciel d’optimisation de l’expérience client et de feature management, utilise la méthode bayésienne qui produit un indice de « chance de gagner”. Cet indice permet une interprétation directe des chances de gagner, plutôt que d’obtenir une P valeur qui elle a une signification très complexe.

En d’autres termes, l’indice de « chance de gagner » est la probabilité qu’une variation donnée soit meilleure que l’original.

Par conséquent, une « chance de gagner » de 95% signifie qu’il y a une probabilité de 95% que la variation donnée soit gagnante. Cela suppose que nous n’avons ni connaissance préalable, ni confiance spécifique dans l’original.

Le seuil de 95% lui-même est également un compromis par défaut entre la connaissance préalable que vous avez sur l’original et un certain niveau de tolérance au risque (cela aurait même pu être un seuil de 98%).

Bien qu’il soit difficile de donner un chiffre exact, voici une échelle approximative pour votre seuil :

  • Nouvelles variations A et B : si vous avez un cas où la variation A et la variation B sont toutes les deux nouvelles, le seuil peut être très bas, jusqu’à 50 %. S’il n’y a pas de données antérieures sur les performances des variations et que vous devez faire un choix pour la mise en œuvre, même une chance de gagner de 51 % est meilleure que 49 %.
  • Nouveau site web, faible trafic : si votre site web est nouveau et a très peu de trafic, vous avez probablement très peu de connaissances préalables sur la variation A (ici, la variation d’origine). Dans ce cas, fixer un seuil de 85 % est raisonnable. Cela signifie que si vous mettez de côté ce que vous savez déjà sur l’original, vous avez encore 85 % de chance de choisir le gagnant et seulement 15 % de chance de choisir une variation équivalente à l’original (avec une chance encore moindre qu’elle se comporte moins bien). Selon le contexte, un tel pari peut avoir du sens.
  • Entreprise mature, faible trafic : si votre entreprise a une longue histoire mais un trafic faible, un seuil de 90 % est raisonnable. C’est parce qu’il y a encore peu de connaissances antérieures sur l’original.
  • Entreprise mature, trafic élevé : si vous disposez de nombreuses données ou de connaissances préalables sur la variation A, un seuil de 95 % est approprié.

Le seuil d’origine de 95 % est bien trop élevé si votre entreprise a un faible trafic, car il y a peu de chances que vous l’atteigniez. Par conséquent, votre stratégie CRO n’aura aucun effet, et la prise de décision basée sur les données devient impossible.

En utilisant AB Tasty comme plateforme d’expérimentation, vous recevrez un rapport comprenant la « chance de gagner » ainsi que d’autres informations statistiques concernant vos expériences. Il inclurait également l’intervalle de confiance sur le gain estimé, qui est un indicateur important. Les limites autour du gain estimé sont également calculées de manière bayésienne, ce qui signifie qu’elles peuvent être interprétées comme le meilleur et le pire scénario. 

L’importance des statistiques bayésiennes

Maintenant que vous comprenez le sens précis du niveau de « certitude » de 95%, pourtant bien connu, vous êtes en mesure de sélectionner des seuils appropriés correspondant à votre cas particulier.

Il est important de se rappeler que cette approche ne fonctionne qu’avec les statistiques bayésiennes, car l’approche fréquentiste fournit des indices statistiques (tels que les P valeurs et les intervalles de confiance) qui ont un sens totalement différent et ne conviennent pas à la logique expliquée.

2. Les statistiques sont-elles valables avec de petits nombres ?

Oui, elles sont valables tant que vous ne mettez pas fin au test en fonction du résultat. Vous pouvez ignorer le readiness shield.

Rappelez-vous que le protocole de test indique qu’une fois que vous avez décidé d’une période de test, la seule raison de l’arrêter est lorsque ce délai est écoulé. Dans ce cas, les indices statistiques (« chance de gagner » et intervalle de confiance) sont vrais et utilisables.

Vous pensez peut-être : « D’accord, mais j’atteins rarement le seuil de certitude de 95%… »

Rappelez-vous que le seuil de 95% n’a pas besoin d’être le chiffre magique pour tous les cas. Si vous avez peu de trafic, il est probable que votre site web soit récent. Si vous vous référez au point précédent, vous pouvez consulter notre échelle suggérée pour différents scénarios.

Si vous avez peu de trafic en tant que nouvelle entreprise, vous pouvez certainement passer à un seuil plus bas (comme 90%). Le seuil est encore assez élevé car il est courant d’avoir plus confiance en une version originale qu’en une variante car elle est utilisée depuis plus longtemps.

Si vous avez affaire à deux variantes totalement nouvelles, à la fin de votre période de test, il sera plus facile de choisir la variante avec le plus grand nombre de conversions (sans utiliser un test statistique) puisqu’il n’y a aucune connaissance préalable de la performance de A ou B.

3. Faire le chemin à l’envers

Parfois, le problème de trafic n’a pas pour cause un site web à faible trafic, mais plutôt une page web. En effet, dans la plupart des cas, les pages avec un faible trafic se situent à la fin du funnel d’achat.

Dans ce cas, une excellente stratégie consiste à travailler sur l’optimisation de celui-ci. Une première solution peut se trouver en cherchant à optimiser le parcours client digital tout au long du funnel.

4. Est-ce que la technique CUPED fonctionne vraiment ?

Qu’est-ce que CUPED ?

Controlled Experiment Using Pre-Experiment Data est un terme à la mode dans le domaine de l’expérimentation. CUPED est une technique qui prétend produire des résultats jusqu’à 50% plus rapidement. Cela est très attrayant pour les sites Web à faible trafic.

Est-ce que CUPED fonctionne vraiment aussi bien ?

Pas exactement, pour deux raisons : l’une est organisationnelle et l’autre est liée à son application.

La contrainte organisationnelle

Ce qui est souvent oublié, c’est que CUPED signifie Controlled experiment Using Pre-Experiment Data.

En pratique, la période idéale pour collecter des « Pre-Experiment Data » est de deux semaines pour espérer une réduction de temps de 50%.

Ainsi, pour un test classique de 2 semaines, CUPED prétend que vous pouvez mettre fin au test en seulement 1 semaine.

Cependant, pour pouvoir observer correctement vos résultats, vous aurez besoin de deux semaines de données pré-expérimentation. En réalité, vous devez donc disposer de trois semaines pour mettre en œuvre CUPED afin d’obtenir la même précision qu’un test classique de 2 semaines.

Oui, vous avez bien lu. En fin de compte, vous aurez besoin de trois semaines pour mener à bien une expérimentation.

En d’autres termes, cette méthode n’est utile que si vous disposez déjà de deux semaines de données de trafic non exposées à une quelconque expérience. Mais si vous pouvez planifier deux semaines sans expérimentations dans votre roadmap pour collecter des données, cela bloquera le trafic pour d’autres expériences.

La contrainte d’application

En plus de la contrainte organisationnelle/liée à la période des deux semaines, il existe deux autres prérequis pour que CUPED soit efficace :

  1. CUPED s’applique uniquement aux visiteurs parcourant le site à la fois pendant la période de pré-expérimentation et la période expérimentale.
  2. Ces visiteurs doivent avoir le même comportement par rapport au KPI. Les données des visiteurs doivent être corrélées entre les deux périodes.

Vous constaterez dans le paragraphe suivant que ces deux contraintes rendent CUPED pratiquement impossible pour les sites de e-commerce et ne s’appliquent qu’aux plateformes.

Revenons à notre exemple de configuration d’expérimentation :

  • Deux semaines de données pré-expérimentation.
  • Deux semaines de données d’expérimentation (que nous espérons ne durer qu’une semaine grâce à la réduction de temps de 50% supposée).
  • L’objectif d’optimisation est une transaction : augmenter le nombre de conversions.

La contrainte numéro 1 stipule qu’il faut avoir les mêmes visiteurs pendant la période de pré-expérimentation et d’expérimentation. Or, le parcours du visiteur dans le secteur du e-commerce dure généralement une semaine.

En d’autres termes, il y a très peu de chances que vous voyiez les mêmes visiteurs dans les deux périodes. Ainsi, on ne peut s’attendre qu’à un effet très limité de CUPED (limité à la portion de visiteurs observés dans les deux périodes).

La contrainte numéro 2 stipule que les visiteurs doivent avoir le même comportement en ce qui concerne la conversion (par rapport au KPI en cours d’optimisation). Honnêtement, cette contrainte n’est tout simplement jamais respectée dans le e-commerce.

La conversion dans le e-commerce se produit soit pendant la période de pré-expérimentation, soit pendant la période expérimentale, mais pas dans les deux cas (à moins que votre client effectue fréquemment plusieurs achats pendant la période de l’expérience).

Cela signifie qu’il n’y a aucune chance que les conversions des visiteurs soient corrélées entre les périodes.

En résumé : CUPED n’est tout simplement pas applicable aux sites e-commerce pour optimiser les transactions.

Cela est clairement indiqué dans l’article scientifique d’origine, mais dans un souci de popularité, cette technique de buzzword est présentée de manière erronée dans l’industrie des tests.

En réalité, CUPED fonctionne uniquement pour les conversions multiples sur des plateformes qui ont des visiteurs récurrents effectuant les mêmes actions.

Les grandes plateformes adaptées à CUPED seraient les moteurs de recherche (comme Bing, où il a été inventé) ou les plateformes de streaming où les utilisateurs viennent quotidiennement et effectuent les mêmes actions répétées (lecture d’une vidéo, clic sur un lien dans une page de résultats de recherche, etc.).

Mais si vous essayez de trouver une application de CUPED dans le domaine du e-commerce, vous vous rendrez rapidement compte que ce n’est tout simplement pas possible.

  • On pourrait essayer d’optimiser le nombre de produits consultés, mais le problème de la contrainte 1 reste applicable : un très petit nombre de visiteurs sera présent dans les deux ensembles de données. De plus, il y a une objection encore plus fondamentale : ce KPI ne devrait pas être optimisé en lui-même, sinon vous encouragez potentiellement l’hésitation entre les produits.
  • Vous ne pouvez même pas essayer d’optimiser le nombre de produits achetés par les visiteurs avec CUPED car la contrainte numéro 2 reste valable. L’acte d’achat peut être considéré comme instantané. Par conséquent, il ne peut se produire que dans une période ou l’autre, pas les deux. S’il n’y a pas de corrélation attendue dans le comportement des visiteurs, il n’y a alors aucun effet CUPED à attendre.

Conclusion sur CUPED

En conclusion, CUPED ne fonctionne pas pour les sites de e-commerce où une transaction est l’objectif principal d’optimisation. À moins d’être Bing, Google ou Netflix, CUPED ne sera pas l’ingrédient secret pour vous aider à optimiser votre activité.

Cette technique est certainement un mot à la mode qui suscite rapidement l’intérêt. Cependant, il est important d’avoir une vision plus globale avant de vouloir ajouter CUPED à votre feuille de route. Les marques de e-commerce devront prendre en compte le fait que cette technique de test ne convient pas à leur entreprise.

Optimisation pour les sites à faible trafic

Les marques ayant un faible trafic sont toujours des candidats privilégiés pour l’optimisation de leur site web, même si elles doivent adopter une approche légèrement différente de la méthode traditionnelle.

Que cela implique de choisir une page plus haut dans le funnel d’achat ou d’adopter un seuil de certitude légèrement plus bas, l’optimisation continue est cruciale.

Vous souhaitez commencer à optimiser votre site Web ? AB Tasty est la plateforme d’optimisation de l’expérience best-in-class qui vous permet de créer une expérience digitale enrichie rapidement. De l’expérimentation à la personnalisation, cette solution peut vous aider à activer et à engager votre public pour stimuler vos conversions.

Vous pouvez trouver le lien de l’article original ici.

Vous aimeriez aussi...

Abonnez-vous à
notre Newsletter

bloc Newsletter FR

La politique de confidentialité d'AB Tasty est disponible ici.

Article

16min lecture

A/B Testing : méthode fréquentiste ou bayésienne ?

Dans le secteur de l’AB testing, il existe deux méthodes majeures pour interpréter les résultats d’un test : fréquentiste ou bayésienne. 

Ces termes font référence à deux méthodes de statistiques inférentielles. Des débats houleux visent à déterminer la « meilleure » solution mais chez AB Tasty, nous savons quelle méthode a fini par gagner nos faveurs.

Bayesian vs frequentist methods in ab testing
Source

Que vous soyez à la recherche d’une solution d’AB testing, que vous découvriez le domaine ou que vous cherchiez simplement à mieux interpréter les résultats d’une expérience, il est essentiel de comprendre la logique de chaque méthode. Cela vous aidera à prendre de meilleures décisions commerciales et/ou à choisir la meilleure plateforme d’expérimentation. 

Dans cet article, nous allons évoquer :

[toc]

Définition des statistiques inférentielles

Les méthodes fréquentistes et bayésiennes appartiennent à la branche des statistiques inférentielles. Contrairement aux statistiques descriptives (qui comme leur nom l’indique, décrivent exclusivement des événements passés), les statistiques inférentielles visent à induire ou à anticiper des événements futurs. De la version A ou la version B, laquelle aura un meilleur impact sur un KPI X ? 

À savoir : Pour entrer un peu plus dans les détails, techniquement, les statistiques inférentielles ne consistent pas à anticiper au sens temporel du terme, mais à extrapoler ce qu’il se passera en appliquant les résultats à un plus grand nombre de participants. Que se passe-t-il si nous proposons la version B gagnante à l’ensemble de l’audience de mon site web ? La notion d’événements « futurs » est bien présente dans le sens où nous devrons effectivement implémenter la version B demain, mais nous n’utilisons pas les statistiques pour « prédire l’avenir » au sens strict.

Prenons un exemple. Imaginons que vous soyez fan de sports olympiques et que vous vouliez en apprendre davantage sur une équipe de natation masculine. Plus précisément, combien mesurent les membres de l’équipe ? Grâce aux statistiques descriptives, vous pourriez déterminer quelques données intéressantes à propos de l’échantillon (autrement dit, l’équipe) :

  • La taille moyenne de l’échantillon
  • L’étalement de l’échantillon (variance)
  • Le nombre de personnes en dessous ou au-dessus de la moyenne
  • Etc.

Cela peut répondre à vos besoins immédiats mais le périmètre est relativement limité. Les statistiques inférentielles vous permettent d’induire des conclusions à des échantillons trop importants pour être étudiés par une approche descriptive. Si vous vouliez connaître la taille moyenne de tous les hommes sur la planète, il serait impossible d’aller collecter toutes ces données. En revanche, vous pouvez utiliser les statistiques inférentielles pour induire cette moyenne à partir de différents échantillons, plus limités.

On peut induire ce type d’information par l’analyse statistique de deux manières : à l’aide des méthodes fréquentiste et bayésienne.

Définition des statistiques fréquentistes

L’approche fréquentiste vous est peut-être plus familière car elle est plus fréquemment utilisée par les logiciels d’A/B testing (sans vouloir faire de mauvais jeu de mot…). Elle est également souvent enseignée dans les cours de statistiques en études suppérieures.

Cette approche vise à prendre une décision à propos d’une expérience unique.

Avec l’approche fréquentiste, vous partez de l’hypothèse selon laquelle il n’y a pas de différence entre la version A et la version B du test. Au terme de votre expérience, vous obtiendrez ce que l’on appelle la P-valeur (valeur de probabilité).

La « pValue » (valeur-p) désigne la probabilité d’obtenir des résultats au moins aussi extrêmes que les résultats observés, en partant du principe qu’il n’y a pas de (réelle) différence entre les expériences. 

En pratique, la valeur-p est interprétée pour signifier la probabilité qu’il n’y a aucune différence entre vos deux versions. (C’est pour cela qu’elle est souvent “inversée” en utilisant la formule basique : p = 1-valeur-p, afin d’exprimer la probabilité qu’il existe une différence).

Plus la valeur-p est faible, plus élevées sont les chances qu’il existe effectivement une différence, et donc que votre hypothèse est fausse.

Avantages de l’approche fréquentiste :

  • Les modèles fréquentistes sont disponibles dans n’importe quelle bibliothèque de statistiques pour tous les langages de programmation. 
  • Le calcul des tests fréquentistes est ultra-rapide.

Inconvénients de l’approche fréquentiste :

  • La valeur-p est uniquement estimée à l’issue d’un test et non pendant. Regarder régulièrement les données (data peeking) avant la fin d’un test génère des résultats trompeurs car il s’agit alors de plusieurs expériences (une nouvelle à chaque fois que vous examinez les données) quand le test est conçu pour une seule expérience. 
  • Vous ne pouvez pas connaître le réel intervalle de gain d’une variation gagnante.

Définition des statistiques bayésiennes

L’approche bayésienne explore les choses sous un angle un peu différent. 

Son origine remonte à un charmant mathématicien britannique du nom de Thomas Bayes et à son éponyme théorème de Bayes.

Bayes Theorem
Source

L’approche bayésienne permet d’inclure des informations antérieures (« a priori ») à votre analyse actuelle.  Cette méthode fait intervenir trois concepts qui se recoupent :

  • Un a priori, à savoir une information obtenue d’une expérience précédente. Au début de l’expérience, nous utilisons un a priori « non-informatif » (comprendre « vide »). 
  • Des preuves, c’est à dire les données de l’expérience actuelle.
  • Un posteriori, soit l’information actualisée obtenue à partir de l’a priori et des preuves. C’est ce que l’on obtient par l’analyse bayésienne.

Par nature, ce test peut être utilisé pour une expérience en cours. Lors du data peeking, les données observées peuvent servir d’a priori, les données à venir seront les preuves, et ainsi de suite. Cela signifie que le « data peeking » s’intègre naturellement à la conception du test. Ainsi, à chaque data peeking, le posteriori calculé par l’analyse bayésienne est valide.

L’approche bayésienne permet aux professionnels du CRO d’estimer le gain d’une variation gagnante : un élément fondamental de l’A/B testing dans un contexte business. Nous reviendrons plus tard sur ce point.

Avantages de l’approche bayésienne :

  • Elle permet d’observer les données pendant un test. Ainsi, vous pouvez stopper le traffic si une variation échoue ou bien passer plus rapidement à une variation gagnante évidente. 
  • Elle vous permet de connaître le réel intervalle de gain d’un test gagnant.
  • Par nature, elle élimine souvent l’implémentation de faux positifs.

Inconvénients de l’approche bayésienne :

  • Elle nécessite une boucle d’échantillonnage qui utilise une charge CPU non-négligeable. Ce n’est pas un problème pour l’utilisateur mais cela peut potentiellement poser problème à plus grande échelle.

Approche bayésienne vs. fréquentiste

 

Alors, quelle est la « meilleure » méthode ?

Commençons par préciser que ces méthodes statistiques sont toutes les deux parfaitement valables. Mais chez AB Tasty, nous avons une nette préférence pour l’approche bayésienne. Pourquoi ?

La mesure du gain

L’une des raisons principales est que les statistiques bayésiennes vous permettent d’évaluer l’ampleur du gain réel d’une variation gagnante, plutôt que de savoir uniquement qu’il s’agit de la gagnante.

Dans un cadre business, il s’agit d’une distinction cruciale. Lorsque vous effectuez votre test A/B, ce que vous êtes réellement en train de décider, c’est si vous devez passer de la variation A à la variation B. Il ne s’agit pas de choisir A ou B en partant de zéro. Il faut donc prendre en compte :

  • Le coût de mise en oeuvre du passage à la variation B (temps, ressources, budget)
  • Les coûts additionnels liés à la variation B (coûts de la solution, licences…)

Prenons un exemple : imaginons que vous commercialisez un logiciel B2B et que vous exécutez un test A/B sur votre page tarifs. La variation B comprenait un chatbot, absent dans la variation A. La variation B a surperformé par rapport à la A mais pour l’implémenter, il faudra deux semaines à un développeur pour intégrer le chatbot à votre workflow de lead nurturing. En outre, il faudra dégager X euros de budget marketing pour payer la licence mensuelle du chatbot.

via GIPHY

Il faut être sûr de votre calcul et qu’il est plus rentable d’opter pour la version B en comparant ces coûts avec le gain estimé par le test. C’est exactement ce que permet l’approche bayésienne.

Prenons un exemple en observant l’interface de reporting AB Tasty.

Dans ce test fictif, nous mesurerons trois variations contre une version d’origine en prenant les « Clics CTA » comme KPI.

AB Tasty reporting

On peut constater que la grande gagnante semble être la variation 2, avec un taux de conversion de 34,5 %, comparé à 25 % pour la version d’origine. Mais en regardant à droite, nous pouvons aussi voir l’intervalle de confiance de ce gain. Autrement dit, nous tenons compte du meilleur et du pire scénario.

Le gain médian de la variation 2 s’élève à 36,4 %. Ici le gain le plus faible possible est + 2,25 % et le plus élevé, 48,40 %. Il s’agit des bornes de gain les plus faibles et les plus élevés que vous pouvez obtenir dans 95 % des cas. Si l’on décompose les choses davantage :

  • Il y a 50 % de chances que le pourcentage de gain percentage soit supérieur à 36,4 % (la médiane) 
  • Il y a 50 % de chances qu’il soit inférieur à 36,4 %.
  • Dans 95 % des cas, le gain sera dans la fourchette entre + 2,25 % et + 48,40 %. 
  • Il reste 2,5 % de chances que le gain soit inférieur à 2,25 % (le fameux cas du faux positif) et 2,5% de chances qu’il soit supérieur à 48,40 %.

Ce niveau de granularité peut vous aider à choisir de déployer ou non la variation gagnante d’un test sur votre site internet. Les extrémités les plus faibles et les plus élevées de vos marqueurs de gain sont positives ? Fantastique ! L’intervalle de confiance est étroit, donc vous êtes convaincu d’un gain élevé ? Implémenter la version gagnante est alors probablement la bonne décision. Votre intervalle est large mais les coûts d’implémentation sont bas ? Là encore, il n’y a pas de mal à se lancer. En revanche, si votre intervalle est large et que les coûts d’implémentation sont conséquents, il vaut sans doute mieux attendre d’avoir davantage de données pour réduire cet intervalle. Chez AB Tasty, nous recommandons généralement :

  • D’attendre avant d’avoir enregistré au moins 5 000 visiteurs uniques par variation ;
  • De faire durer le test au moins 14 jours (deux cycles commerciaux) ;
  • D’attendre d’avoir atteint 300 conversions sur votre objectif principal.

Data peeking

Les statistiques bayésiennes offrent un autre avantage : grâce à elles, vous pouvez jeter un coup d’œil aux résultats de vos données pendant un test (sans en abuser tout de même !).

Imaginons que vous travaillez pour une grande plateforme d’e-commerce et que vous effectuez un test A/B concernant une nouvelle offre promotionnelle. Si vous remarquez que la variation B affiche des résultats pitoyables (vous faisant perdre beaucoup d’argent au passage), vous pouvez stopper le test immédiatement !

A l’inverse, si votre test surperforme, vous pouvez transférer tout le trafic de votre site web vers la version gagnante plus rapidement que si vous employiez la méthode fréquentiste. 

C’est la logique précise qui gouverne notre fonctionnalité d’allocation dynamique de trafic… qui n’aurait jamais été possible sans M. Thomas Bayes !

Allocation dynamique de trafic

Si nous nous arrêtons rapidement sur le sujet de l’allocation dynamique de trafic, nous verrons qu’elle est particulièrement utile dans un cadre commercial ou dans des contextes instables ou limités en termes de temps.

AB Tasty dynamic traffic allocation bayesian

L’option d’allocation dynamique de trafic dans l’interface AB Tasty

L’allocation dynamique de trafic (automatisée) permet essentiellement de trouver l’équilibre entre l’exploration et l’exploitation des données. Les données du test font l’objet d’une « exploration » suffisamment approfondie pour être certain de la conclusion et elles sont « exploitées » suffisamment tôt pour de ne pas perdre inutilement des conversions (ou tout autre KPI). Il faut souligner que ce processus ne se fait pas manuellement : ce n’est pas une personne en chair et en os qui interprète ces résultats et prend la décision. Au lieu de cela, un algorithme va faire ce choix pour vous automatiquement.

Dans la pratique, les clients AB Tasty cochent la case correspondante et choisissent leur KPI principal. L’algorithme de la plateforme déterminera alors s’il faut rediriger la majorité de votre trafic vers une variation gagnante et du moment opportun pour le faire.

Ce type d’approche est particulièrement utile dans les situations suivantes :

  • Pour optimiser les micro-conversions dans un délai court
  • Lorsque la durée du test est courte (par exemple, lors d’une promotion pendant les fêtes)
  • Lorsque votre page cible génère peu de trafic
  • Lorsque vous testez plus de six variations

S’il faut bien réfléchir au moment opportun pour utiliser cette option, il est particulièrement utile de l’avoir sous le coude.

Les faux positifs

Tout comme les méthodes fréquentistes, les statistiques bayésiennes comportent un risque de ce que l’on appelle le faux positif.

Comme vous pouvez le deviner, un faux positif se produit lorsque le résultat d’un test indique qu’une variation affiche une amélioration, alors que ce n’est pas le cas. En matière de faux positifs, il arrive souvent que la version B donne les mêmes résultats que la version A (et non pas qu’elle soit moins performante que la version A).

Loin d’être inoffensifs, les faux positifs ne sont certainement pas une raison d’abandonner l’A/B testing. Vous pouvez plutôt ajuster votre intervalle de confiance pour l’adapter au risque lié à un potentiel faux positif.

La probabilité de gain par les statistiques bayésiennes

Vous avez probablement déjà entendu parler de la règle de probabilité de gain de 95 %.

Autrement dit, on considère qu’un test est statistiquement significatif lorsque l’on atteint un seuil de certitude de 95 % : vous êtes sûr à 95 % que votre version B performe comme indiqué, mais il existe toujours 5 % de risques que ce ne soit pas le cas.

Pour de nombreuses campagnes marketing, ce seuil de 95 % est probablement suffisant. Mais si vous menez une campagne particulièrement importante dont les enjeux sont considérables, vous pouvez ajuster votre seuil de probabilité de gain pour qu’il soit encore plus précis : 97 %, 98 % ou même 99 %, excluant ainsi pratiquement le moindre risque de faux positif.

Si l’on peut penser qu’il s’agit d’une valeur sûre (et c’est la bonne stratégie pour les campagnes de premier plan), il ne faut pas l’appliquer à tout va.

Voilà pourquoi :

  • Pour atteindre ce seuil plus élevé, vous devez attendre les résultats plus longtemps, ce qui vous laisse moins de temps pour récolter les bénéfices d’une issue positive.
  • De manière implicite, vous n’obtiendrez un gagnant qu’avec un gain plus important (ce qui est plus rare), et vous abandonnerez les améliorations mineures qui peuvent quand même changer la donne.
  • Si vous avez un faible volume de trafic sur votre page web, vous voudrez peut-être envisager une approche différente.

Les tests bayésiens limitent les faux positifs

Il faut également garder en tête que puisque l’approche bayésienne fournit un intervalle de gain et que les faux positifs n’apparaissent virtuellement que légèrement meilleurs qu’en réalité, vous n’avez alors que très peu de chances d’implémenter un faux positif.

Prenons un scénario courant pour illustrer ce propos. Imaginons que vous exécutiez un test A/B pour vérifier si le nouveau design d’une bannière promotionnelle augmente le taux de clics sur le CTA. Votre résultat indique que la version B est plus performante avec une probabilité de gain à 95 % mais le gain est infime (amélioration médiane d’1 %). Même s’il s’agit d’un faux positif, il y a peu de chances que vous déployez la version B de la bannière sur l’ensemble de votre site car les ressources nécessaires à son implémentation n’en vaudraient pas la peine.

Mais, comme l’approche fréquentiste ne fournit pas cet intervalle de gain, vous seriez plus tenté de mettre en place le faux positif. Certes, ce ne serait pas la fin du monde : la version B offre certainement la même performance que la version A. Cependant, vous gaspilleriez du temps et de l’énergie sur une modification qui ne vous apporterait aucune valeur ajoutée.

Ce qu’il faut retenir ? Si vous jouez la carte de la sécurité et que vous attendez un seuil de confiance trop élevé, vous passerez à côté de plusieurs petits gains, ce qui serait également une erreur.

En conclusion

Alors, quelle approche est la meilleure : fréquentiste ou bayésienne ?

Comme nous l’avons déjà évoqué, les deux approches sont des méthodes statistiques parfaitement valables.

Mais chez AB Tasty, nous avons choisi l’approche bayésienne car nous estimons qu’elle aide nos clients à prendre de meilleures décisions commerciales. Elle permet également une plus grande flexibilité et une maximisation des bénéfices (allocation dynamique de trafic). En ce qui concerne les faux positifs, ils peuvent survenir que vous optiez pour l’approche fréquentiste ou bayésienne… mais il y a de moins de risque que vous vous y laissiez prendre avec cette dernière. Au bout du compte, si vous cherchez une plateforme d’A/B testing, l’important est d’en trouver une qui vous fournira des résultats fiables et facilement interprétables.