• On recrute - rejoignez-nous
  • Langue
A/B Testing, Optimisation Conversions

Bien comprendre (et maîtriser) votre panier moyen

by Hubert Wassner
Partager sur linkedin
Share on Linkedin
Partager sur facebook
Share on Facebook
Partager sur twitter
Share on Twitter

Quand vous faites de l’A/B testing pour optimiser l’expérience utilisateur, votre objectif final est d’augmenter vos revenus. Cependant on parle plus souvent d’amélioration des conversions (c’est-à-dire de l’action de changer un visiteur en acheteur). Si vous augmentez le nombre de conversions, vous augmentez de fait le revenu en augmentant le nombre de ventes. Mais il ne s’agit que d’un moyen parmi d’autres… Un autre moyen repose en effet sur le fait d’augmenter le « panier moyen ». Une approche toutefois plus rarement abordée. Pourquoi ? Parce qu’il reste encore difficile de mesurer un changement de valeur de panier moyen.

Un problème de mesure et de statistiques

Quand on parle de test statistique associé aux valeurs de paniers, à quoi fait-on référence ? Au test Mann-Whitney-U (aussi appelé Wilcoxon) utilisé dans certains logiciels de test A/B comme le propose AB Tasty. Un “must have” pour tous ceux qui souhaitent optimiser leurs conversions. Ce test indique en effet la probabilité que la variation B rapporte plus que la version originale. Néanmoins, impossible d’indiquer l’ordre de grandeur du gain en question. Or les stratégies mises en place pour augmenter le « panier moyen » ont probablement un coût. Résultat, il est donc primordial de s’assurer que les gains couvrent a minima les coûts.

Par exemple, si l’expérience consiste à tester un outil de recommandation de produits, il est important de s’assurer que le gain de revenu lié est supérieur au coût généré par le système de recommandation. …
Malheureusement vous allez constater que ce problème est difficile et contre-intuitif…

Prenons un exemple concret : l’approche naïve consiste à calculer le panier moyen directement. C’est tout simplement la somme de toutes les valeurs de paniers que l’on divise par le nombre de paniers. Est-ce une erreur ? Non, car ce calcul fait sens. Pour autant, il n’en reste pas moins très imprécis ! La véritable erreur consiste à comparer de telles mesures et à penser que ces comparaison sont valides. Prenons alors les vraies données de valeur de panier et simulons un gain de panier moyen.

Voici le protocole :

  • Soit P, une liste de valeurs de paniers (il s’agit de vraies données collectées sur un site e-commerce, hors situation de test).
  • Mélangeons ces données et découpons-les en 2 groupes A et B.
  • Laissons le groupe A intact : il s’agit de notre groupe de référence, que l’on va appeler « original ».
  • Ajoutons 3 € à toutes les valeurs de B, groupe que l’on appelle « la variation » et pour lequel nous avons conduit l’expérience (par exemple en proposant un système de recommandation aux visiteurs du site).
  • Dès lors, nous pouvons effectuer le test Mann-Whitney pour nous assurer que le gain ajouté est bien significatif.

À partir de là, nous allons simplement calculer les valeur moyennes des listes A et B, et en calculer la différence. Naïvement, nous pouvons donc espérer trouver une valeur proche de 3€ (équivalente au gain que nous avons « injecté » dans la variation). Mais le résultat attendu ne correspond pas. Nous allons voir pourquoi dans la suite de l’article.

Comment calculer le panier moyen

L’histogramme ci-dessous reprend les données de départ, à savoir 10 000 valeurs de paniers. L’axe X (horizontal) représente une valeur de panier, et l’axe Y (vertical), le nombre de fois où cette valeur a été observée dans les données.

Il apparaît alors que le prix le plus fréquent est aux alentours de 50 € et qu’un autre pic apparaît vers 100 €, alors que l’on compte très peu de prix supérieurs à 600 €.
Après avoir mélangé la liste de prix, on la découpe en deux parties égales (5 000 données pour le groupe A, et 5 000 pour le groupe B).

Ensuite, on ajoute 3 € à toutes les valeurs du groupe B, et on trace à nouveau l’histogramme pour les 2 groupes A (en bleu) & B (en orange) :

On se rend déjà compte que, visuellement, on ne voit pas l’ajout des 3 € pour le groupe B : la courbe orange ressemble beaucoup à la bleue. Même en zoomant, ce gain de 3 € n’est pas vraiment perceptible :

Pourtant le test Mann-Whitney-U, lui, « voit » bien ce gain :

Plus exactement, il calcule une pValue = 0.01, ce qui se traduit en un indice de confiance à 99 %, indiquant qu’on est très confiant dans l’existence d’un gain de valeur du groupe B par rapport au groupe A. On peut désormais en déduire que ce gain est « statistiquement visible ».

Il reste maintenant à estimer la taille de ce gain (que l’on sait, par construction, valoir 3 €).

Malheureusement, le calcul n’aboutit pas au résultat espéré ! En effet, la moyenne A est égale à 130 € et 12 centimes, et celle de B s’élève à 129 € et 26 centimes. Oui vous avez bien lu : le calcul de moyenne indique que la valeur moyenne de B est plus petite que la valeur de A, soit le contraire de ce que l’on a créé dans le protocole et de ce qu’indique le test statistique. En conséquence, le calcul de moyenne précise qu’au lieu de gagner 3 €, nous perdons 0,86 € !

Alors où est le problème ? Et où se situe la réalité ? A > B ou B > A ?

La notion de valeur extrême

Le fait est que B > A ! Comment est-ce possible ? Il s’avère que la distribution des valeurs de paniers est sujette aux « valeurs extrêmes ». On remarque en effet sur l’histogramme que la majeure partie des valeurs est < 500 €.

Mais en zoomant, on constate une espèce de « longue traîne » qui indique que, rarement certes mais parfois quand même, il peut y avoir des valeurs de paniers bien plus élevées que 500 €. Or le calcul de moyenne est très sensible à ces valeurs extrêmes. Quelques très grandes valeurs de paniers peuvent en effet avoir un impact notable sur le calcul de la moyenne.

Que s’est-il alors passé ? Lors du découpage en deux groupes A & B, ces valeurs « extrêmes » ne se sont pas réparties uniformément dans les deux groupes (ni en nombre, ni en valeurs). Une probabilité d’autant plus élevée que ces événements sont rares et que leurs valeurs sont élevées (et avec une forte variance).

À noter : dans la pratique d’un test A/B, les visiteurs d’un site sont répartis de façon aléatoire dans les groupes A & B dès leur arrivé sur le site. Nous sommes donc ici exactement dans les mêmes conditions expérimentales.

Cela peut-il arriver souvent ? Malheureusement, nous allons voir que oui.

Les tests A/A

Pour répondre plus précisément à cette question, il est nécessaire d’utiliser un programme qui automatise la création d’un test A/A, c’est-à-dire un test dans lequel aucune modification n’est affectée au second groupe (que l’on appelle normalement B). Objectif : vérifier la qualité de la procédure de test. Pour y parvenir, voici le protocole :

  1. Mélanger les données initiales
  2. Découper en 2 groupes de tailles égales
  3. Calculer la valeur moyenne sur chaque groupe
  4. Calculer la différence de valeur moyenne

En exécutant ce programme 10 000 fois et en calculant l’histogramme des différences mesurées, voilà ce qu’on obtient :

Axe X : différence mesurée (en euros) entre les moyennes des groupes A et B.
Axe Y : nombre de fois où cette taille de différence a été observée.

On note que la répartition est bien centrée autour de 0, ce qui est logique puisqu’on n’a pas inséré de gain sur les données du groupe B. Le problème ici est l’étalement de cette courbe : en effet, les écarts supérieurs à 3 € semblent très fréquents. On peut même les estimer à près de 20 % des cas. Que peut-on alors en conclure ? En se basant uniquement sur cette différence de moyenne, on peut donc observer un gain supérieur à 3 € dans près de 20 % des cas, et ce alors même qu’aucune modification de traitement n’a été effectuée entre A et B !

De même, on note également que dans environ 20 % des cas, on pensera mesurer une perte de 3 € par panier… ce qui est tout aussi faux ! C’est d’ailleurs ce qui est arrivé au cours de l’expérience précédente : le découpage a « artificiellement » gonflé la moyenne du groupe A. Le gain de 3 € ajouté à toutes les valeurs de B n’a pas suffi à le rattraper. Résultat, ce gain de 3 € par panier est alors « invisible » lors du calcul de moyenne. En se basant sur le simple calcul de différence et en plaçant le seuil de décision à 1 €, on a alors environ 80 % de chance de croire à un gain ou une perte… qui n’existe pas !

Pourquoi ne pas supprimer ces valeurs « extrêmes » ?

Si les valeurs « extrêmes » sont un problème, il pourrait sembler simple de les supprimer et de « solutionner » ce problème. Pour cela, il est nécessaire de d’abord définir formellement ce qu’on appelle une valeur extrême. Une proposition classique consiste à émettre l’hypothèse que les données suivent une loi gaussienne. Dans ce cas, on considère comme « extrêmes » les données qui s’éloignent de la moyenne de plus de 3 fois la déviation standard. Sur ces données, le seuil calculé est d’environ 600 €, ce qui semble faire sens pour supprimer la « longue traîne ». Cependant, le résultat n’est pas à la hauteur des espérances. Si on applique le protocole de test A/A précédent aux données « filtrées », on observe le résultat suivant :

On constate alors que la distribution de valeurs de différence de moyennes est tout aussi large, sa forme est à peine modifiée.

Si on réalise maintenant un test A/B (toujours avec +3€ pour B), voilà ce qu’on obtient (voir graphique ci-dessous). On constate que la mesure de différence est négative (donc totalement à l’inverse de la réalité), dans environ 17 % des cas ! Et ce, malgré l’exclusion des valeurs extrêmes. Et dans près de 18 % des cas, il sera possible de croire que le gain apporté par B est > 6 €, soit deux fois la réalité !

En bref, l’estimation de la taille du gain est impossible avec ces outils.

Pourquoi cela ne fonctionne pas ?

La raison de cet échec est que les données de valeurs de paniers ne suivent pas une loi gaussienne.
Voici visuellement l’erreur d’approximation que l’on fait :

L’axe X (horizontal) représente une valeur de panier, l’axe Y (vertical) représente quant à lui le nombre de fois que cette valeur a été observée dans les données.

La courbe bleue représente les vraies valeurs de panier, la courbe orange illustre quant à elle le modèle gaussien. On constate alors que le modèle est vraiment mauvais : la courbe orange ne colle pas au profil de la courbe bleue. D’où l’inefficacité de la simple suppression des valeurs extrêmes pour gérer ce problème.

S’il est possible de procéder en amont à une transformation des données pour qu’elles deviennent gaussiennes (cela revient à prendre le log des valeurs de panier) pour améliorer nettement la correspondance entre le modèle et les données, cela ne règle pas non plus complètement le problème. La variance sur les différences de moyenne est tout aussi importante.

Lors d’un test A/B, l’estimation de la taille du gain de valeur de panier est très importante pour prendre la bonne décision. En particulier si la variation gagnante contient une composante qui a un coût. Aujourd’hui, force est de constater que le calcul réel du panier moyen reste complexe. Le choix repose par conséquent uniquement sur un indice de confiance, qui ne qualifie que l’existence d’un gain (mais pas sa taille). Une pratique certes limitante, mais dans le cas où le taux de conversion et le panier moyen évoluent dans le même sens, le gain (ou la perte) apparaît de façon évidente. Là où il devient très difficile voire impossible de prendre une décision pertinente, c’est lorsqu’ils n’évoluent pas dans le même sens. C’est pour cette raison que la pratique du test A/B se focalise principalement sur des expériences d’ergonomie ou d’esthétique du site, avec un impact réduit sur le panier moyen mais plus important sur la conversion. Voilà pourquoi fondamentalement on parle de « Conversion Rate Optimisation » (CRO) et non de « business optimisation ». Parce que toute expérimentation susceptible de modifier à la fois la conversion et le panier moyen reste très difficile à analyser. Et c’est là que l’accompagnement d’un expert technique spécialiste de la conversion prend tout son sens : pour vous aider à mettre en place un tracking spécifique connecté à votre outil d’upsell.

Pour tout comprendre de l’A/B testing, consultez notre article : Le problème, c’est le choix : les limites de l’A/B testing.