Article

10min lecture

Combien de temps un test A/B doit-il durer pour un résultat fiable ?

Il s’agit du premier article d’une série destinée à vous aider à interpréter correctement les résultats de vos tests A/B. Pour ce 1er article nous nous nous intéressons à une question récurrente : combien de temps doit durer un test avant de pouvoir en tirer des conclusions ?

La question sous-jacente est en effet cruciale et peut se résumer de la façon suivante : à partir de quand peut-on arrêter un test qui semble donner des résultats ? De la réponse dépendra la pertinence de l’analyse et le gain réel du test. En effet, il n’est pas rare de voir des tests donner de bons résultats durant la phase d’expérimentation puis, une fois les modifications mises en production, ne plus constater les mêmes résultats. Dans la majorité des cas, une erreur commise durant l’expérimentation est à l’origine de cet amer constat : le test a été arrêté trop tôt et les résultats à cet instant vous induisent en erreur. Prenons un exemple pour illustrer la nature du problème.

durée-d'un-test

L’image précédente représente l’évolution du taux de conversion de 2 versions d’une page faisant l’objet d’un test. Dès le début du test, la 1re version semble se détacher et surperformer. L’écart entre les 2 versions se réduit progressivement au fil du temps et 2 semaines après le début du test, plus aucune différence notable n’est constatée. Ce phénomène de convergence des résultats est typique si la modification apportée n’a pas d’impact réel sur la conversion.

L’apparente surperformance au début du test s’explique simplement : il est rare que les échantillons soient représentatifs de votre audience au démarrage du test. Il faut en effet du temps pour que vos échantillons intègrent tous vos profils d’internautes et donc tous leurs comportements. Si vous arrêtez votre test trop tôt, par exemple au bout d’1 semaine dans l’exemple ci-dessus, vous allez prendre une décision erronée, car vos données sont incomplètes.

Le problème étant posé, voyons de façon pratique comment éviter de tomber dans ce piège. Il existe plusieurs critères sur lesquels vous baser pour déterminer quand vous fier aux résultats affichés par votre solution d’A/B testing.

  • L’indice de confiance statistique
  • La taille de l’échantillon
  • La représentativité de votre échantillon
  • La période du test et le device testé

1. L’indice de fiabilité statistique

Toutes les solutions d’A/B testing affichent dans leur reporting un indicateur de fiabilité statistique qui mesure la probabilité que les différences de résultats constatés entre chaque échantillon ne soient pas liées au hasard. Cet indicateur, calculé selon le test du Khi Deux, est le 1er indicateur sur lequel se baser. L’usage chez les statisticiens veut que l’on considère un test fiable à partir d’un taux de 95 %. On accepte donc de se tromper dans 5 % des cas et que les résultats des 2 versions puissent être identiques.

Se baser uniquement sur cet indicateur pour juger du moment opportun d’arrêter un test est pourtant une erreur. S’il s’agit d’une condition nécessaire pour juger de la fiabilité d’un test, elle n’est pas suffisante. Autrement dit, tant que vous n’avez pas atteint ce seuil, vous ne pouvez pas prendre de décision, et une fois ce seuil atteint, vous devez encore prendre certaines précautions.

Par ailleurs, il faut bien comprendre ce que signifie le test du Khi Deux. Celui-ci permet de rejeter ou non ce qu’on appelle l’hypothèse nulle. Appliquée à l’A/B testing, celle-ci consiste à dire que 2 versions produisent des résultats identiques (et qu’il n’y a donc pas de différences entre elles). Si la conclusion du test amène à rejeter l’hypothèse nulle, cela veut donc dire qu’il y a une différence de résultats. En revanche, le test ne présage en rien de l’ampleur de cette différence.

2. La taille de l’échantillon

Il existe de nombreux outils en ligne permettant de calculer la valeur du Khi Deux en indiquant en paramètres d’entrée les 4 éléments nécessaires à son calcul (dans le cadre d’un test avec 2 versions). Vous pouvez trouver un tel outil ici.

En utilisant cet outil, nous avons pris un exemple extrême pour illustrer le problème.

durée-test

http://www.evanmiller.org/ab-testing/chi-squared.html

Sur cette image, le calcul du Khi Deux amène à dire que l’échantillon n° 2 converti mieux que l’échantillon n° 1 avec une fiabilité de 95 %. En revanche, les valeurs d’entrée sont extrêmement faibles et rien ne garantit que si l’on testait 1 000 personnes au lieu de 100, on conserverait le même ratio de 1 à 3 entre les taux de conversions.

C’est un peu comme jouer à pile ou face. Si la probabilité est de 50 % de tomber sur pile et 50 % sur face, il est possible, en ne jouant que 10 fois, d’avoir une distribution de 70 %/30 %. C’est uniquement en jouant un grand nombre de fois qu’on se rapproche de la distribution attendue de 50 %/50 %.

Pour pouvoir se fier au test du Khi Deux, il est donc recommandé d’avoir une taille d’échantillon conséquente. Vous pouvez calculer la taille de cet échantillon avant de démarrer votre test pour avoir une indication du moment où il est pertinent de regarder l’indicateur de fiabilité statistique. Plusieurs outils en ligne permettent de calculer cette taille d’échantillon (exemple ici). Dans la pratique cela peut s’avérer difficile, car l’un des paramètres à renseigner est le % d’amélioration attendue, ce qui n’est pas facile à évaluer, mais peut être un bon exercice pour juger de la pertinence des modifications envisagées. PS : plus le pourcentage d’amélioration attendu est faible, plus la taille de l’échantillon devra être importante pour pouvoir détecter une réelle différence. Si vos modifications ont un impact très faible, beaucoup de visiteurs devront être testés. Cela milite donc pour que vous apportiez des modifications radicales ou disruptives qui auront probablement plus d’impact sur la conversion.

durée-test

3. La représentativité de votre échantillon

Si vous avez beaucoup de trafic, atteindre une taille d’échantillon suffisante n’est pas un problème et vous pouvez obtenir un taux de fiabilité statistique en seulement quelques jours, 2 ou 3 parfois. Pour autant, arrêter un test dès lors que les conditions de taille d’échantillons et de fiabilité statistique sont satisfaites n’est pas la garantie de reproduire les résultats en situation réelle.

Le point clé, souvent sous-estimé, consiste à tester aussi longtemps qu’il le faut pour inclure dans votre échantillon tous vos segments d’audience. En effet, les tests statistiques partent du postulat que vos échantillons sont distribués de façon identique, autrement dit que la probabilité de convertir est la même pour tous les internautes. Or, ce n’est pas le cas : cette probabilité varie en fonction de différents facteurs tels que le temps, l’emplacement géographique ou encore les préférences utilisateurs.

2 facteurs sont notamment très importants à prendre en compte.

  • Vos cycles commerciaux. Les internautes n’achètent pas directement une fois qu’ils découvrent votre site. Ils s’informent, comparent, murissent leur réflexion… Entre le moment où ils sont soumis à l’un de vos tests et le moment où ils convertissent, il peut s’écouler 1, 2, voire 3 semaines. Si votre cycle d’achat est de 3 semaines et que vous ne testez que sur 1 semaine, votre échantillon ne sera pas représentatif, car notre outil enregistrera les visites de tous les internautes, mais n’enregistrera pas les conversions d’une partie d’entre eux pour lesquels votre test aura pourtant un impact. Nous vous conseillons donc de tester sur au moins 1 cycle commercial complet, 2 idéalement.
  • Vos sources de trafic. Votre échantillon doit inclure l’ensemble de vos sources de trafic (emailing, liens sponsorisés, réseaux sociaux…) et vous devez vous assurer qu’aucune de ces sources ne soit surreprésentée dans votre échantillon. Prenons un cas concret : si le canal emailing est une source faible de trafic, mais importante de revenus, et que vous menez un test pendant une campagne emailing, vous allez inclure dans votre échantillon des internautes qui ont une plus forte propension à acheter. Celui-ci ne sera plus aussi représentatif. Il est également primordial d’avoir connaissance des opérations d’acquisition d’envergure et si possible ne pas tester sur ces périodes. Il en va de même pour les tests durant les soldes ou tous autres temps forts promotionnels qui attirent des internautes au comportement atypique. En réitérant les mêmes tests en dehors de ces périodes, vous constaterez souvent des différences de résultats moins marquées.

S’assurer de la représentativité de votre échantillon s’avère au final assez difficile, car vous maîtrisez peu la nature des internautes qui participent à votre test. Vous pouvez pallier ce problème de 2 manières. La première est de prolonger votre test plus que nécessaire pour vous rapprocher d’une distribution normale de vos internautes. La deuxième consiste à cibler vos tests pour n’inclure dans votre échantillon qu’une population spécifique. Ex : vous pouvez exclure de vos tests tous les internautes qui viennent de vos campagnes d’emailing si vous savez qu’ils biaisent vos résultats. Vous pouvez aussi cibler uniquement les nouveaux visiteurs pour ne pas inclure d’internautes bien avancés dans leur processus d’achat et qui convertiraient, quelle que soit la version à laquelle ils sont soumis.

4. Autres éléments à prendre en compte

D’autres éléments sont à prendre en compte pour s’assurer que les conditions de votre expérimentation soient les plus proches de la réalité : le timing et le device.

  • Les taux de conversion pouvant varier fortement entre les jours de la semaine, voire les heures de la journée, il est conseillé de tester sur des périodes complètes. Autrement dit, si vous lancez un test le lundi matin, il doit s’arrêter un dimanche au soir pour qu’une distribution normale des conversions soit respectée.
  • De même, les taux de conversion entre mobile, tablette et desktop variant fortement, nous recommandons de tester vos sites ou pages spécifiquement pour chaque device, en utilisant les fonctionnalités de ciblage pour inclure/exclure les devices pour lesquels vos utilisateurs présentent des comportements de navigation et d’achat très différents.

Ces éléments sont à prendre en compte pour ne pas arrêter vos tests trop tôt et vous fourvoyer dans une analyse erronée des résultats. Ils expliquent également pourquoi certains tests A/A, menés sur une période trop courte ou durant une période d’activité anormale, peuvent présenter des différences de résultats ainsi qu’une fiabilité statistique, alors que vous n’avez apporté aucune modification.

Abonnez-vous à
notre Newsletter

bloc Newsletter FR

AB Tasty traite et stocke vos données personnelles pour vous envoyer des communications tel que détaillé dans notre politique de confidentialité ici.

Article

9min lecture

Comment formuler des hypothèses de tests efficaces ?

On s’imagine souvent que, faire des tests A/B pour améliorer les performances de son site e-commerce passe, par exemple, par un rapide changement de couleur du bouton « acheter ». On pense alors, à tort ou à raison (parfois !), que modifier le rouge de l’icône, par du vert, contribuera à accroître de manière drastique son taux de conversion. Or, c’est en réalité une erreur que de s’imaginer que des modifications basiques et rapides apportées au niveau du design de vos pages, conduiront à une amélioration significative de vos résultats !

En effet, encore bien trop peu de gens s’interrogent sur les vraies origines du succès (ou de l’échec !) des changements qu’ils mettent en place pour améliorer leur taux de conversion (ou autre donnée de mesure) et il est important de savoir déterminer à la fois le problème et les hypothèses qui vous permettront d’obtenir les meilleurs résultats, en s’inscrivant sur du long terme car, comme l’illustre l’exemple ci-dessous, il s’agit bien souvent de croître du simple au double !

Aussi, plutôt que de foncer tête baissée et trouver une solution « bricolée », il est bien souvent préférable de savoir prendre du recul pour :

1/ Identifier le véritable problème à la source de mauvaises performances (Exemple : un taux de rebond élevé sur votre landing page, ou un taux d’abandon élevé au moment de la facturation sur votre site)

2/ Établir une hypothèse à partir de laquelle pourrait découler le problème identifié (Exemple : « nos clients ne comprennent pas immédiatement les caractéristiques de nos produits lorsqu’ils lisent les fiches sur notre site e-commerce »)

Cette deuxième étape, qui peut sembler difficile puisqu’elle requiert une capacité d’introspection et un regard critique sur le site existant, s’avère néanmoins cruciale pour qui souhaite voir ses KPIs s’améliorer de manière drastique !

Aussi, les questions auxquelles nous allons répondre ici seront donc les suivantes :

  • Qu’est-ce qu’une hypothèse de tests A/B pour un site e-commerce ?
  • L’hypothèse de tests A/B : la formule de départ
  • Quels sont les éléments à prendre en compte pour s’assurer que les hypothèses établies sont les bonnes et vous garantiront les meilleurs résultats ?

Les hypothèses de tests A/B : une définition courte, pour un sujet riche pour les professionnels du e-commerce !

Lorsque l’on consulte un dictionnaire, le mot « hypothèse » a une définition très simple (source Larousse) :

Proposition visant à fournir une explication vraisemblable d’un ensemble de faits, et qui doit être soumise au contrôle de l’expérience ou vérifiée dans ses conséquences.

Le premier point intéressant à soulever dans cette définition a trait à « l’ensemble de faits à expliquer » : les hypothèses de tests doivent toujours partir d’un problème clairement identifié. Surtout ne pas tester au hasard, au risque de perdre son temps.

Pour identifier ces problèmes, beaucoup de sources d’information sont à votre disposition :

  • Données web analytics. Si ces données n’expliquent pas le comportement des internautes, elles permettent de mettre en évidence des problèmes de conversion (ex. : identification des abandons de panier). Elles servent également à prioriser les pages à tester.
  • Évaluation heuristique et audit ergonomique. Ces analyses permettent d’appréhender à moindre coût l’expérience du site du point de vue de l’utilisateur, sur la base d’une grille d’analyse.
  • Tests utilisateurs. Ces données qualitatives sont limitées par la taille de l’échantillon, mais peuvent se révéler très riches en informations qui n’auraient pas été décelées avec des méthodes quantitatives. Elles révèlent souvent des problèmes de compréhension de l’offre ou d’ergonomie du site. Même si l’expérience peut parfois s’avérer quelque peu douloureuse au regard des potentielles remarques négatives, cela vous permettra de récupérer des données qualifiées sur des insights précis.
  • Eye tracking ou click tracking. Ces méthodes apportent de la visibilité sur la façon dont les internautes interagissent avec les éléments au sein d’une page et pas uniquement entre les pages.
  • Feedbacks clients. Les entreprises collectent déjà de nombreux retours de la part de leurs clients (ex. : commentaires et avis déposés sur le site, questions posées au service client). Leur analyse peut être complétée par la mise en place d’outils tels que des enquêtes clients ou encore des live chats pour collecter davantage d’information.

Ces outils vont vous aider à mettre en lumière les vrais problèmes impactant les performances de votre site, et sur le long terme, au-delà des solutions, c’est aussi un vrai gain de temps et d’argent !

Aussi, avant d’aller plus en détail dans le sujet, partons de ce qui constitue la base d’une hypothèse de test A/B !

L’hypothèse de tests A/B : la formule de départ

Au départ, la constitution des hypothèses de tests A/B peut sembler presque simple. Il s’agit principalement d’un changement et de son effet produit :

Changer (élément testé) de ___________ en _____________ va me permettre d’augmenter/ diminuer (l’unité de mesure définie).

Cette formule n’est, à ce stade, qu’une supposition théorique, qu’il conviendra de prouver ou désapprouver, mais elle vous servira de fil rouge dans la résolution du problème rencontré.
Point important cependant : l’impact du changement que vous souhaitez apporter doit toujours être mesurable en des termes quantifiables (taux de conversion, taux de rebond, taux d’abandon etc. …).
Voici ci-dessous quelques exemples d’hypothèses formulées selon la formule exposée ci-dessus et applicables au e-commerce :

Exemple #1
« Modifier notre call to action de « ACHETER VOS TICKETS MAINTENANT » en « LES TICKETS SE VENDENT RAPIDEMENT – SEULEMENT 50 ENCORE DISPONIBLES ! » va améliorer nos ventes sur notre site e-commerce. »

Exemple #2
«Raccourcir le formulaire en supprimant les champs facultatifs, tels que le téléphone et l’adresse postale, augmentera le nombre de contacts collectés. »

En complément, lorsque, au sein de ce processus de réflexion, vous réfléchissez à la solution que vous souhaitez implémenter, il faut nécessairement y intégrer la notion de « psychologie » du prospect en s’interrogeant sur le point suivant :

« Quel impact psychologique, le problème identifié peut-il provoquer dans l’esprit du client ? »

A titre d’exemple, si le problème que vous avez identifié est « il y a un manque de clarté dans le processus d’inscription au site, qui impacte la conversion vers l’acte d’achat », l’impact psychologique sur votre prospect peut être de la confusion à la lecture des informations. Au regard de ce constat, vous pourrez dès lors commencer à réfléchir de manière concrète à la solution pour corriger ce sentiment côté « client ». Ainsi, dans le cas présent, on pourra imaginer « intégrer une barre de progression matérialisant les différentes étapes de l’inscription ».

Point de vigilance cependant, cet aspect « psychologique » ne doit pas être intégré dans la formulation de votre hypothèse de test. Il faut toujours respecter la construction suivante : « Si je change cela, cela va causer cet effet-là ». Une fois vos résultats obtenus, vous devriez, dès lors, être capable de dire « c’est vrai »/ « c’est faux ». Il faut donc bien veiller à s’appuyer sur des suppositions concrètes et tangibles.

Enfin, et parce que s’arrêter en si bonne voie serait dommage, tout l’enjeu final dans la constitution des hypothèses de A/B test est d’identifier, rapidement, celle qui viendra servir le mieux votre business.

Optimiser la constitution d’hypothèses de test A/B efficaces pour les sites e-commerce

Il existe de nombreux éléments qui vont vous permettre de constituer des hypothèses de test A/B efficaces… En voici déjà 5 pour débuter (et vous inspirer) ! Ces bonnes pratiques vous offrent la possibilité de créer vos hypothèses en comparant votre site actuel et les propositions énoncées ci-dessous, et impactent directement les performances de conversion.

1. SUR LA HOMEPAGE

  1. Le header/ la bannière principale expliquant les produits/ les services proposés par le site permettent d’accroître la curiosité des clients et de prolonger leur temps de présence sur le site.
  2. Un call-to-action visible dès la connexion, va permettre d’augmenter les chances de clics
  3. Une section “ à propos”, très visible, va permettre de renforcer la confiance envers la marque, que ressentira le prospect en arrivant sur le site.

2. DANS LES RUBRIQUES PRODUIT

  1. Les filtres font largement économiser du temps aux clients. Ils peuvent rapidement trouver ce qu’ils cherchent.
  2. Valoriser une sélection des produits les plus populaires en haut des rubriques est un excellent point de départ à la génération de ventes.
  3. Un bouton/ lien “ en savoir plus” sous chaque produit, va encourager l’utilisateur à vouloir en découvrir plus !

3. DANS LES FICHES PRODUIT

  1. La recommandation « produit » crée une expérience plus personnalisée pour l’internaute et aide à augmenter son panier d’achat moyen
  2. Si le bouton “ajouter au panier” est l’élément le plus visible de la fiche produit, il va attirer l’attention du prospect, et faire augmenter le taux de clic.
  3. Un bouton “Ajouter au panier et payer” fait gagner du temps au client, la plupart payant en moyenne 1 transaction à la fois.
  4. L’ajout de boutons de partage “sociaux” est un moyen efficace de faire de la fiche produit, un contenu viral.

4. DANS LE PANIER

  1. La présence de logos tels que “certifié visa” renforce la confiance des clients envers le site
  2. Un bouton/ lien très visible de “Procéder au paiement” incite largement les utilisateurs à cliquer

5. LE PAIEMENT

  1. Une seule page pour le paiement permet de diminuer le temps de chargement entre deux pages, et de maintenir l’attention du client.
  2. Le paiement de la commande sans inscription, est quelque chose de très apprécié par les nouveaux prospects, qui ne sont pas forcément enclins à partager leurs informations personnelles au moment de la première connexion.
  3. Si les différentes étapes de paiement sont visibles pour l’utilisateur, alors il aura de la visibilité sur la suite de son parcours. Cela le rassurera et lui donnera envie d’aller au bout de son acte d’achat.

Pour terminer, même si la définition des hypothèses des tests A/B peut sembler un travail complexe et surtout méthodique, il ne faut pas oublier tous les bénéfices que cette étape pourra apporter à votre site e-commerce. Aussi, la prochaine fois que vous souhaiterez optimiser vos performances, pensez « analyse et data », avant « design et graphisme » : un bon début vers la mise en place d’hypothèses efficaces.