Peut-on A/B tester les outils marketing ? Oui, mais avec prudence…

Par Hubert Wassner – Chief Data scientist at AB Tasty

Introduction : La pratique de l’A/B test est la solution royale pour faire des choix de design de site web. Plutôt que de débattre pendant des heures sur le design d’une page, un test A/B permet de mesurer les performances des différentes versions, pour choisir la meilleure. Mais qu’en est-il quand on veut faire des choix plus complexes :

  • Ce système de recommandation produit vaut-il le coup ?
  • Ce système de recommandation est-il mieux que tel autre ?
  • Ce système de chat augmente-t-il vraiment les conversions ?

Là aussi l’A/B testing peut aider à faire le bon choix, mais des précautions supplémentaires sont à mettre en œuvre pour tester correctement ces fonctionnalités. Je vais essayer de les lister ici.

La première précaution est d’avoir un test statistique bayésien, car il vous fournit un intervalle de confiance autour du gain que vous mesurez. En effet, vous ne pouvez pas vous contenter d’une information du type : « vous mesurez actuellement un gain de 10 % avec une fiabilité de 95 % » (ce que fournit un test statistique de type Chi² classique). Car ce test vous indique uniquement qu’il y a 95 % de chance qu’une différence existe entre les variations, et vous indique une mesure actuelle de différence à +10 %, mais la taille de cette différence ne vous est pas assurée ! Ainsi vous pouvez tout à fait vous retrouver avec un gain de 2 % en production. Or ce gain de 2 % ne couvre peut être pas les coûts de la solution de chat ou de recommandation que vous comptez utiliser.

Un test bayésien vous donne un intervalle de confiance du gain. Cet intervalle vous donne une idée du meilleur et du pire scénario, couvrant 95 % des cas. Ainsi, si l’intervalle de confiance du gain est [+%5 : +15%] et que vous savez que vous gagnez de l’argent à partir de 4 %, alors vous pouvez faire un choix avisé. Il n’y a que 2.5 % de chances que le gain réel soit < 5 %, et il y a aussi 5 % de chances qu’il soit > 15 %. Vous pouvez donc implémenter la solution. Si l’intervalle de confiance est [+1%;10%] là, il y a toujours un risque que le vrai gain soit < 4 % et donc que vous perdiez de l’argent. Notez qu’avec l’approche fréquentiste, dans les deux cas, vous pouvez avoir un indice de confiance à 95 %, et que la mesure instantanée du gain peut ponctuellement atteindre les 10 %, sans que ce soit la vraie mesure du gain.

Ce n’est pas tout, il faut aussi mettre en œuvre un protocole de test en adéquation avec les modes de fonctionnement des outils que l’on veut tester. Pourquoi ces fonctionnalités ne peuvent pas se tester comme un simple changement de mise en page ou de couleur ? Voyons cela par type d’outil :

  • Les systèmes de « chat » : ils ne sont pas activés dans tous les cas, car ils ont souvent un coût à l’usage. Ces systèmes ne sont alors déclenchés que dans des situations particulières (par exemple lors d’un retour sur la page d’accueil). Dans ce cas il faut que le test et la comparaison portent bien sur les mêmes types de visiteurs, dans notre exemple il s’agit des visiteurs qui sont retournés sur la page d’accueil. L’hypothèse est que les visiteurs qui reviennent sur la page d’accueil sont ceux qui cherchent une information qu’ils n’ont pas trouvée, et c’est pour cette population que le « chat » peut avoir son intérêt. Si vous comparez cette population à l’ensemble des visiteurs du site, vous faites une erreur.

Il est à noter qu’il existe principalement deux types d’outils de « chat ». Les « chats » traditionnels où l’opérateur est payé (et donc normalement dûment formé), et les communautaires où les opérateurs sont simplement d’autres clients ou utilisateurs. Pour ce dernier cas, il faut aussi prévoir une période de recrutement et d'(auto)formation des opérateurs, avant de démarrer le test à proprement parler.

  • Les systèmes de recommandations produits sont souvent des systèmes apprenants. Il est donc maladroit de les tester sans tenir compte de leur phase d’apprentissage. L’idéal est donc de pouvoir laisser le système apprendre pendant une période dont la durée est à se faire spécifier par le fournisseur du service.
  • Qui dit service apprenants dit aussi données d’apprentissage, donc il faut s’assurer que chaque variation reçoive la même quantité d’informations, et que l’A/B test ne génère pas des données erronées :
    • Typiquement, si vous comparez deux systèmes de recommandation entre eux, assurez-vous d’avoir la même allocation de trafic pour les deux variations. Sinon vous donnerez implicitement l’avantage à celle qui voit le plus de trafic.
      De même si vous comparez un système de recommandation par rapport à l’original sans recommandation, sachez que le système est alors sous exploité car il ne peut pas voir l’ensemble du trafic. Cependant dans ce cas, le système mis en production sur l’ensemble du trafic devrait alors encore mieux fonctionner.
    • Assurez-vous aussi que toute recommandation demandée au système soit présentée au visiteur et que les actions du visiteur parviennent bien jusqu’au système de recommandation. Une recommandation masquée par une solution d’A/B test ne recevra bien sûr aucun clic, le problème c’est que cette absence de clic sera considérée comme une information par le système, qui en tiendra compte pour ses prochaines recommandations. Cela peut induire le système de recommandation en erreur, car dans ce cas l’absence d’interaction avec le visiteur n’est pas due à la mauvaise recommandation, mais simplement au fait que la recommandation n’a pas été affichée.

Malheureusement, trop souvent c’est le client qui décide du protocole de test, après avoir écouté les conseils avisés du commercial voulant vendre sa solution. Le problème c’est qu’il n’est pas forcément data-scientist, cela peut parfois mener à des erreurs de protocole. Évidement les vendeurs de ces solutions peuvent eux aussi être agacés de voir leur produit mal évalué, ce qui est compréhensible.

Conclusion : pour A/B tester des outils marketing complexes, choisissez un partenaire de testing expérimenté, et mettez-le en contact avec le fournisseur de l’outil que vous voulez testez. Ensuite, faites confiance au data-scientist de l’outil d’A/B test pour mettre en place un protocole équitable : il n’a pas d’autre intérêt que de vous fournir la mesure la plus impartiale et précise que possible.

 

Hubert Wassner
Hubert est Chief Data Scientist chez AB Tasty. Il a fait de l'analyse de données et du machine learning depuis plus de 20 ans, dans des sujets aussi variés que la reconnaissance de la parole, la biométrie, et l'analyse d'ADN. Il a été aussi professeur en école d'ingénieur. Il a gardé ce goût du partage de connaissance par le biais d'article de blogs et d'interventions publiques

Related Posts


Tweetez
Partagez
Partagez
Pocket
Buffer
X