• Language

Das Problem ist die Wahl: Die Grenzen von A/B-Testing!

A/B-Testing ist eine Methode, bei der zwei Versionen einer Webseite (oder einer App) miteinander verglichen werden, um zu bestimmen, welche Version bessere Ergebnisse erzielt. Anhand einer Statistikanalyse lässt sich die Version identifizieren, die im Hinblick auf ein vorgegebenes Conversion-Ziel effektiver ist.

A/B-Testing wird in den Marketingabteilungen von Unternehmen jeglicher Größenordnung bevorzugt als Technik der Conversion Rate-Optimierung (CRO) eingesetzt. Dabei gibt es nur folgendes Problem: Die Grenzen der vorgenommenen Statistikanalysen resultieren wiederum in begrenzten Marketingpraktiken. Lassen Sie uns das A/B-Testing in seinen Einzelheiten genauer unter die Lupe nehmen. 

Der Gral aller Marketers: Geschäftsentscheidungen auf der Grundlage von A/B-Testing

Marketingleiter haben eine ganze Reihe von Entscheidungen mit dem Ziel der Umsatzsteigerung zu treffen. Die meisten unter ihnen zerbrechen sich den Kopf, um eine Antwort auf folgende Fragen zu finden:

  • Sollte man den Preis senken, um mehr zu verkaufen?
  • Oder den Preis anheben, um den Wert des durchschnittlichen Warenkorbs zu erhöhen, allerdings mit der Gefahr, die Conversion Rate zu senken?
  • Sollten Produkte aufsteigend nach Preis sortiert werden? Oder absteigend nach Preis?
  • Sollte die Produktpalette nach oben oder unten erweitert werden? Oder beides? Oder keines von beiden?
  • Ist ein Angebot im Stil von „3 zum Preis von 2“ geeignet, um den durchschnittlichen Warenkorbwert zu erhöhen?
  • Sollte man eine kostenlose Lieferung anbieten? Oder nur ab einem bestimmten Wert des Warenkorbs?

Wäre es nicht wunderbar, wenn Sie Geschäftsexperimente durchführen könnten, um diese Hypothesen zu testen und die richtigen Entscheidungen zu treffen? Leider sind die heutzutage angewendeten Statistikanalysen äußerst begrenzt, was die Auswertung ihrer Ergebnisse betrifft. 

Lassen Sie mich das erklären…

Das Grundprinzip des A/B-Testings

Bei A/B-Tests werden zwei Varianten (A und B) derselben Webseite zwei homogenen Gruppen von willkürlich aufgeteilten Website-Besuchern präsentiert. Für jede Variante wird Folgendes erfasst:

  • Die Anzahl der Besucher 
  • Die Anzahl der Käufe 
  • Der Wert des Warenkorbs

Auf dem Papier sollte es ein Leichtes sein, die Variante zu bestimmen, die den meisten Umsatz generiert hat und damit die bessere ist. Allerdings sind die Daten wie bei jedem Experiment in Verbindung mit dem menschlichen Verhalten zufallsbedingt. Selbst wenn Variante B einen erheblich größeren durchschnittlichen Warenkorb ergibt als Variante A, bedeutet das nicht zwangsläufig, dass B immer besser als A abschneiden wird. 

Deshalb lässt sich auch nur schwer mit Sicherheit sagen, ob ein bei einem Test beobachteter Unterschied in der Zukunft erneut auftreten wird. Aus diesem Grund greifen A/B-Testing-Tools auf Statistikanalysen zurück, um die beobachteten Unterschiede näher zu bestimmen und die Gewinnervariante zu identifizieren. Ihr Ziel ist es, signifikante Daten von zufallsbedingten und unvorhersehbaren Schwankungen zu trennen, die in keiner Beziehung zu den Unterschieden zwischen den Varianten stehen. 

„Das Problem ist die Wahl“

Choice A/B Testing

Im E-Commerce kann Variante B als „Gewinner“ eingestuft werden, wenn sie Folgendes erzielt:

  • eine Steigerung der Conversion Rate: mit dieser Variante werden mehr Verkäufe abgeschlossen.
  • eine Steigerung des durchschnittlichen Warenkorbwerts: der Wert des durchschnittlichen Warenkorbs von Variante B ist höher als der von Variante A.
  • ein Mix beider Steigerungen: Variante B erzielt sowohl mehr Conversions als auch einen höheren durchschnittlichen Warenkorbwert.

Steigerung der Conversion

Die Steigerung der Conversion ist beim A/B-Testing am einfachsten zu analysieren. Das dazu verwendete Statistiktool ist der Bayessche Test (Sie brauchen den Artikel nicht zu lesen, um den Standpunkt zu verstehen). Die wichtigste funktionale Eigenschaft dieses Tests ist das Konfidenzintervall der gemessenen Conversion-Steigerung. 

So kann der Test beispielsweise ergeben, dass Variante B einen Anstieg von 5 bis 10% generiert – das bedeutet, Variante B würde zwischen 5 und 10% mehr Käufe erzielen als Variante A. In diesem Beispiel ist es ein Kinderspiel, Variante B als effektivere Variante zu identifizieren. Sie können diese Variante als Gewinnervariante freigeben und sie für den gesamten Website-Traffic anzeigen. 

… Aber ist das wirklich alles, was Sie brauchen, um eine definitive Entscheidung angesichts der Gewinnervariante zu treffen? Das wird sich noch zeigen.

Steigerung der durchschnittlichen Warenkorbgröße

Die Analyse der Steigerung des durchschnittlichen Warenkorbwerts ist wesentlich komplexer. A/B-Testing-Tools verwenden hierzu den Mann-Whitney-U-Test, auch als Wilcoxon bezeichnet. Im Gegensatz zum Bayesschen Test erhält man bei dieser Analyse lediglich eine Gewinnwahrscheinlichkeit, ohne genaue Angabe der Größe der Steigerung. 

Wenn Sie zum Beispiel einen Unterschied von +5 € in Bezug auf den durchschnittlichen Warenkorb von Variante B messen, gibt das Tool eine Gewinnwahrscheinlichkeit von 98 % für Variante B an. In Wirklichkeit jedoch ist vielleicht nur ein Anstieg von +0,1 € gegeben. Die Statistikanalyse hat natürlich nach wie vor recht: Es handelt sich um eine Steigerung. Allerdings hat der Mann-Whitney-U-Test nie die Größe der Steigerung prognostiziert.

Schlimmer noch ist, dass eine Gewinnervariante in Bezug auf die Größe des durchschnittlichen Warenkorbs gemäß dem Mann-Whitney-U-Test tatsächlich zu einem geringeren Umsatz führen kann, aufgrund der Extremwerte, die die Analyse verfälschen. Um das zu vermeiden, könnte man diese Extremwerte vor der Analyse der Ergebnisse entfernen. Diese Lösung ist jedoch zwangsläufig tendenziös: In diesem Fall hängt der Gewinner ausschließlich von der Zeile der „Extremwerte“ ab, die Sie künstlich festlegen.  

Mix von Steigerungen 

Der Idealfall zur Identifizierung einer Gewinnervariante ist die Erfassung einer deutlichen Steigerung sowohl bei der Conversion als auch beim durchschnittlichen Warenkorb. Im Grunde handelt es sich hierbei um die einzige Situation, in der jeder Zweifel bei der Entscheidung ausgeräumt werden kann. 

  • Eine bestimmte Conversion-Steigerung und sicherer Verlust beim durchschnittlichen Warenkorb → Eine Entscheidung ist unmöglich, da Sie nicht wissen, wie viel Sie dabei verlieren und ob Gewinn und Verlust sich gegenseitig aufheben.
  • Ein bestimmter Conversion-Verlust und sichere Steigerung des durchschnittlichen Warenkorbs → Dasselbe.
  • Undefinierte(r) Verlust oder Steigerung des durchschnittlichen Warenkorbs→ Wenn Ihnen die Entwicklung des durchschnittlichen Warenkorbs nicht bekannt ist, können Sie sich in keinem Fall sicher sein.

Dieses letzte Szenario ist die geläufigste Situation. Für die Statistikdaten des Durchschnittskorbs sind in der Regel denn auch wesentlich mehr Informationen zur Conversion Rate erforderlich, damit eine aussagekräftige Analyse vorgenommen werden kann.

Wie Sie sehen, kann man bei den meisten A/B-Tests mit Sicherheit auf eine Conversion-Steigerung schließen. Aber ohne Informationen zur weiteren Entwicklung des durchschnittlichen Warenkorbs bleiben diese Rückschlüsse fraglich. Man könnte dagegenhalten, dass es wohl einen Grund dafür geben muss, dass diese Disziplin als „Conversion Rate-Optimierung“ und nicht „Business-Optimierung“ bezeichnet wird. 😏

Kann man also sagen, dass A/B-Testing kompletter Unsinn ist? Glücklicherweise nein. Der Großteil der heutigen A/B-Tests setzt den Schwerpunkt auf User Experience, User Interface und Design: Farben, Formulierung, Bilder, Layout einer Produktseite… Im Marketing sprechen wir von der „Reduzierung der Reibungspunkte im Sales Funnel“ – oder mit anderen Worten: von der Begrenzung der Anzahl frustrierter Besucher, die die Website verlassen, ohne etwas zu kaufen. 

Aber um über Ergonomie-basierte Tests hinaus zu gehen und eine Antwort auf die eigentlichen Marketingfragen zu finden, müssen wir für den Mann-Whitney-U-Test einen Nachfolger entwickeln, der in der Lage ist, die Größe der Steigerung oder des Verlusts im Rahmen des Experiments zu schätzen. Das würde dem A/B-Testing ohne Zweifel einen neuen Schwung verleihen.

Share on linkedin
Share on Linkedin
Share on facebook
Share on Facebook
Share on twitter
Share on Twitter