Qu’est-ce que le test multi-armed bandit ?

Dans un test A/B classique, le trafic est réparti entre différentes variantes. Bien que nous ignorions laquelle sera la variante gagnante, une partie importante du trafic est dirigée vers des variantes « perdantes » ou « sous-performantes », ce qui peut entraîner une perte de conversions et, par conséquent, de ventes.

Les tests multi-armed bandit et leurs algorithmes permettent de résoudre ce problème en réduisant ce qu’on appelle le « regret expérimental ».

Le problème du multi-armed bandit

Le terme multi-armed bandit provient d’un scénario hypothétique où un joueur doit choisir parmi plusieurs machines à sous (chacune équipée d’un bras mécanique ou « arm »), puis décider combien de fois jouer sur chaque machine et dans quel ordre.

Ce problème, dit « multi-armed bandit », consiste à prendre une série de décisions pour obtenir le meilleur résultat possible.

Dans ce scénario, le joueur pourrait choisir de tester chaque machine de manière égale pour collecter suffisamment de données et déterminer laquelle offre le plus de gains. Cela correspond à la phase d’exploration, mais cela risque de gaspiller du temps sur des machines peu performantes.

Le joueur pourrait également tester rapidement quelques machines, identifier celle qui offre les meilleurs résultats, puis concentrer ses efforts dessus. Cela correspond à la phase d’exploitation.

Tests A/B et multi-armed bandit

En marketing, une solution au problème du multi-armed bandit se présente sous la forme d’un type complexe de test A/B qui utilise des algorithmes d’apprentissage automatique pour attribuer dynamiquement le trafic aux variantes performantes, tout en réduisant le trafic vers celles qui ne performent pas.

Le concept central derrière les bandits manchots multiples repose sur une allocation dynamique du trafic, qui ajuste la quantité de trafic dirigée vers chaque variante testée en fonction de ses performances.

En d’autres termes, l’algorithme détecte la variante la plus performante et lui envoie davantage de trafic pour maximiser les résultats, comme les conversions, qui auraient été perdues en dirigeant ce trafic vers des variantes sous-performantes.

Exploration et exploitation

L’exploration consiste à essayer toutes les options possibles pour identifier celles qui produisent les meilleurs résultats. L’exploitation, quant à elle, consiste à privilégier une action qui a déjà prouvé son efficacité.

Dans un test A/B classique, on met l’accent sur l’exploration, en testant les variantes jusqu’à obtenir des résultats statistiquement significatifs pour déterminer laquelle génère le plus de conversions.

Cependant, ce processus peut entraîner des pertes de conversions, car une partie du trafic est dirigée vers des variantes moins performantes. Les tests multi-armed bandit, grâce à l’allocation dynamique, permettent de transférer progressivement le trafic vers la variante la plus performante sans attendre la fin de l’expérience.

Résoudre le problème grâce aux solutions multi-armed bandit

Les algorithmes multi-armed bandit cherchent à équilibrer exploration et exploitation pour résoudre ce problème.

L’un des algorithmes couramment utilisés est le Thompson Sampling, un algorithme bayésien. Selon Wikipédia, il « consiste à choisir l’action qui maximise le gain attendu en fonction d’une croyance tirée au hasard ».

Grâce à cet algorithme, une variante qui semble mieux performer reçoit plus de trafic, tandis que les variantes moins performantes en reçoivent moins.

Pourquoi est-ce important ?

Ce type d’algorithme est crucial pour limiter les pertes de conversions et réduire le « regret expérimental », c’est-à-dire la différence entre les gains réels et les gains qui auraient été obtenus en utilisant la meilleure variante dès le début.

Dans un test A/B classique, il n’y a pas d’exploitation immédiate de la variante la plus performante, ce qui entraîne une perte de ressources. En revanche, les algorithmes multi-armed bandit permettent d’identifier rapidement les meilleures variantes pour maximiser les récompenses.

Quand privilégier les tests multi-armed bandit ?

Les tests multi-armed bandit sont particulièrement utiles dans les situations suivantes : promotions à court terme lorsque le temps est limité et qu’il est essentiel de maximiser les conversions rapidement, comme pour une offre spéciale. Tests sur un contenu éphémère, par exemple pour évaluer des titres d’articles d’actualité. Ciblage spécifique pour identifier la meilleure variante pour un groupe d’utilisateurs prédéfini. Multiples variantes à tester : lorsque plus de 6 variantes sont impliquées, les algorithmes multi-armed bandit détectent rapidement celles qui ne performent pas. Coûts d’opportunité élevés : lorsqu’une perte de conversions pendant un test pourrait avoir des conséquences importantes.

Cependant, ces tests nécessitent des ressources supplémentaires et des compétences techniques élevées, car ils sont plus complexes à exécuter.

Comparaison entre A/B Testing et Multi-Armed Bandit Testing

CritèresA/B TestingMulti-Armed Bandit Testing
Temps limité
Résultats statistiquement significatifs
Multiples variantes
Promotions à court terme
Faible trafic
Simplicité de mise en œuvre
Adaptatif au fil du temps
Analyse post-expérimentale pour des objectifs à long terme

Conclusion

Il n’y a pas de vainqueur clair entre les tests A/B et les tests multi-armed bandit. Votre choix dépendra de vos objectifs, de vos ressources et du temps dont vous disposez.

Si vous cherchez à maximiser les conversions rapidement, les tests multi-armed bandit sont une excellente option. Cependant, pour des campagnes à long terme nécessitant des résultats statistiquement significatifs, les tests A/B sont souvent plus adaptés.

Boostez votre croissance
avec ABTasty

Obtenez une démo personnalisée de la plateforme

Demander une démo