Multi-Armed Bandits: A/B Testing mit weniger Bedenken

Bei jedem durchgeführten A/B-Test wird der Traffic normalerweise zwischen verschiedenen Varianten aufgeteilt. Obwohl wir nicht wissen, welche die gewinnende Variation sein wird, wird ein guter Teil des Traffics auf die ‚verlierende‘ oder ‚unterperformende‘ Variante gelenkt, was dich Conversions und somit Verkäufe kosten könnte.

Multi-Armed Bandit Tests und Algorithmen helfen, dieses Problem zu vermeiden.

Das Multi-Armed Bandit Problem

Der Begriff Multi-Armed Bandit stammt ursprünglich aus einem hypothetischen Szenario, in dem ein Spieler entscheiden muss, welche Maschine er aus einer Reihe von Spielautomaten spielen soll, wie oft er sie spielen soll und in welcher Reihenfolge er diese Maschinen spielen soll.

Dies wird als das ‘multi-armed bandit Problem’ bezeichnet, bei dem du, wie im obigen Szenario, vor einer Reihe von Entscheidungen stehst und den besten Kurs wählen musst, um das profitabelste Ergebnis zu erzielen.

In der erwähnten hypothetischen Situation könnte der Spieler wählen, jede Maschine gleichmäßig auszuprobieren und genügend Daten zu sammeln, um zu bestimmen, welche Maschine ihm die meisten Gewinne einbringt, was im Wesentlichen das ist, worauf A/B-Tests hinauslaufen. Allerdings nimmt man damit das Risiko in Kauf, zu viel Zeit an Maschinen mit geringen Gewinnen zu verschwenden.

Dies wird als Exploration bezeichnet. Stattdessen könnte der Spieler wählen, einige der Maschinen schnell zu testen, um diejenige zu identifizieren, die den höchsten Gewinn abwirft, und sich dafür entscheiden, diese Maschine weiter zu spielen. In diesem Fall ist dies die Exploitation, eine sofortige Belohnung.

A/B-Testing und Multi-Armed Bandits

Beim Marketing besteht eine Lösung für das multi-armed bandit Problem in einer komplexen Art von A/B-Tests, die Machine-Learning-Algorithmen verwenden, um den Traffic dynamisch auf Varianten zu verteilen, die gut performen.

Weniger Traffic wird auf Varianten gelenkt, die nicht so gut performen. Das zugrunde liegende Konzept hinter Multi-Armed Bandits ist also die dynamische Traffic-Zuweisung, bei der ein Algorithmus die Menge des Traffics, die an jede laufende Testvariation gesendet wird, anpasst.

Mit anderen Worten, es erkennt die Variation mit der höchsten Performance und sendet mehr Traffic an diese Variation, um das Ergebnis zu maximieren, zum Beispiel die Anzahl der Conversions, die der unterperformenden Variante verloren gegangen wären, wäre der Algorithmus nicht implementiert.

Oder einfach ausgedrückt: Nach der Auswahl deines primären KPI wird der Traffic basierend auf der Performance dieses KPI neu zugewiesen. Das Ziel hinter Multi-Armed Bandits ist es also, die Aktion zu finden, die die höchste erwartete Belohnung bringt.

Exploration und Exploitation

Die Konzepte von Exploration und Exploitation beziehen sich auf die Lösung des Problems der Multi-Armed Bandits.

Exploration bedeutet im Wesentlichen, alle möglichen Optionen auszuprobieren, die die besten Ergebnisse liefern könnten, während Exploitation bedeutet, eine Aktion zu wählen, die sich bereits bewährt hat.

Bei A/B-Tests liegt der Fokus auf dem Explorationsmodus. Mit anderen Worten: Du testest Varianten, um statistisch signifikante Ergebnisse zu erzielen und zu bestimmen, welche die höchsten Conversions oder andere festgelegte Metriken erreicht hat. A/B-Tests ermöglichen es dir also, die Performance von Varianten zu erkunden, indem der Traffic gleichmäßig auf die Varianten verteilt wird, um eine gewinnende Variante zu deklarieren und alle Nutzer dorthin zu lenken (Exploitation).

Dies könnte bedeuten, dass mögliche Conversions verloren gehen, da du Nutzer auf eine unterperformende Variante lenkst, nur um Ergebnisse zu sammeln und die beste Variante zu ermitteln.

Hier kommt die dynamische Zuweisung ins Spiel, die hilft, den Traffic schrittweise zur hochperformenden Variante zu verlagern, anstatt bis zum Ende des Experiments zu warten und dann erst alle Nutzer auf die gewinnende Variante zu leiten.

Multi-Armed-Lösungen: Ein Gleichgewicht zwischen Exploration und Exploitation finden

Es gibt eine Reihe von Multi-Armed-Bandit-Algorithmen und Berechnungen, um das richtige Gleichgewicht zwischen Exploration und Exploitation zu finden.

Ein solcher Algorithmus ist als Thompson Sampling bekannt, ein bayesscher Algorithmus, der die Aktion wählt, die die erwartete Belohnung (Exploitation) maximiert.

Mit diesem Algorithmus erhält eine Variante, die besser zu performen scheint, mehr Traffic, während die Variante mit schlechter Performance weniger Besuche erhält.

Warum ist das wichtig?

Diese Art von Algorithmus hilft dabei, den Verlust von Conversions zu begrenzen und Ausfall zu minimieren, also die Differenz zwischen deiner tatsächlichen Belohnung und der Belohnung, die du erzielt hättest, wenn du die optimale Variante bei jeder Gelegenheit genutzt hättest.

In einem klassischen A/B-Test gibt es keine Exploitation einer besser performenden und höher verdienenden Variante, was zu Ressourcenverschwendung führt, da du auch minderperformande Varianten erkundest, um genügend Daten zu sammeln.

Bandit-Algorithmen hingegen versuchen, ein Gleichgewicht zwischen Exploration und Exploitation zu finden, indem sie Varianten ausreichend erkunden, um die gewinnende zu identifizieren und mit diesen dann die maximale Belohnung zu erreichen.

Multi-armed Bandits sind ideal für Situationen, in denen du nicht genügend Zeit hast, um den Test lange genug laufen zu lassen, um statistisch signifikante Ergebnisse zu erzielen. Denn mit solchen Tests kannst du schneller Ergebnisse erzielen.

Der Fokus liegt auf der Maximierung von Conversions. Zum Beispiel, wenn du die Preisgestaltung für ein spezielles, zeitlich begrenztes Angebot optimieren möchtest. Es ist auch nützlich für zeitkritische Situationen, wie wenn du kurzlebige Inhalte testen möchtest. Zum Beispiel: Testen von Überschriften für einen Nachrichtenartikel.

Wann sind Multi-Armed Bandit Tests traditionellen A/B-Tests vorzuziehen?

Multi-armed Bandits sind in der Tat ideal für den kurzfristigen Einsatz, wenn dein Ziel die Maximierung von Conversions ist.

Wenn dein Ziel jedoch darin besteht, Daten für eine wichtige Geschäftsentscheidung zu sammeln und Tests für langfristige Kampagnen durchzuführen, könnten A/B-Tests nützlicher und relevanter für deine Ziele sein.

Multi-armed Bandits sind auch nützlich für gezielte Zwecke, indem sie die beste Variante für eine vordefinierte Nutzergruppe finden, die du ansprechen möchtest. Außerdem ist diese Art des Testens besser geeignet, wenn du mehrere Varianten testen möchtest, sagen wir mehr als 6, da durch die dynamische Zuweisung die am wenigsten performenden Variante schnell erkannt und Tests auf die relevanten beschränkt werden können.

Schließlich ist das Durchführen von Multi-Armed Bandit Tests vorzuziehen, wenn hohe Opportunitätskosten mit jeder verlorenen Conversion verbunden sind, die durch einen klassischen A/B-Test entstehen könnten.

Aber Vorsicht: Bedenke, dass Multi-Armed Bandits komplexer sind und daher mehr Ressourcen und hohe technische Expertise in der Durchführung erfordern.

Zusammenfassung

Es gibt keinen klaren Gewinner zwischen A/B- und Multi-Armed Bandit Tests. Was du wählst, hängt von deinen Zielen, Ressourcen und dem Zeitdruck ab.

Wenn du jedoch kurzfristig Conversions maximieren möchtest, könnte Multi-Armed Bandit Testing die beste Option sein.

Zusammengefasst bietet die folgende Tabelle eine einfache Möglichkeit, A/B-Tests und Bandits zu vergleichen:

	A/B Testing	Multi-armed bandits
Wenn die Zeit begrenzt ist		✔
Statistische Signifikanz	✔
Mehrere Varianten		✔
Kurzfristige Aktionen und Kampagnen		✔
Wenig Traffic		✔
Einfacher/weniger komplex durchzuführen	✔
Anpassungsfähig über die Zeit		✔
Anschließende Analyse für langfristige Ziele	✔

Schneller wachsen
mit ABTasty

Erhalten Sie eine individuelle Komplettlösung für die Plattform

Demo anfordern