Autor: Hubert Wassner

Blogartikel

8. Aug. 2023

15min. Lesezeit

Wie du mit geringem Traffic im Rahmen der CRO umgehst

Hubert Wassner

Wenn die Besucherzahlen deiner Website nicht so hoch sind wie erhofft, ist das kein Grund, deine Ziele bei der Conversion-Rate-Optimierung (CRO) aufzugeben.

Mittlerweile hast du sicher bemerkt, dass die meisten Tipps zur CRO auf Websites mit einem hohen Traffic zugeschnitten sind. Zum Glück bedeutet das aber nicht, dass du deine Website nicht auch dann optimieren kannst, wenn du weniger Besucher hast.

De facto kann jede Website optimiert werden – Du musst nur deine Optimierungsstrategie an deine einzigartige Situation anpassen.

In diesem Artikel greifen wir folgende Punkte auf:

Die häufigste Klage über CRO (95 %-Schwelle und Ursprung)
Ein angemessener Schwellenwert für geringen Traffic
Ideen, wie du deine Website bei einem geringeren Traffic optimieren kannst
Die CUPED-Testtechnik
Wann CUPED funktioniert und wann nicht

CRO-Analogie

Um diesen Artikel besser verstehen zu können, beginnen wir mit einer Analogie. Stell dir vor, statt zwei Varianten zu messen und einen Gewinner zu ermitteln, messen wir die Leistung von zwei Boxern und schließen Wetten ab, wer die nächsten 10 Runden gewinnt.

Wie können wir also auf den Sieger setzen?

Stell dir vor, dass Boxer A und Boxer B beide Newcomer sind, die keiner kennt. Nach der ersten Runde musst du deine Wahl treffen. Im Endeffekt wirst du mit großer Wahrscheinlichkeit auf den Boxer setzen, der die erste Runde gewonnen hat. Die Entscheidung mag riskant sein, wenn der Vorsprung des Siegers gering ist. Du kannst deine Entscheidung letztlich jedoch nicht auf einer anderen Grundlage treffen.

Stell dir nun vor, dass Boxer A als Champion bekannt ist und Boxer B ein Herausforderer ist, den du nicht kennst. Dein Wissen über Boxer A bezeichnen wir als Prior – Informationen, die du bereits hast und die deine Entscheidung beeinflussen.

Aufgrund dieses Priors oder Vorwissens ist es wahrscheinlicher, dass du in den nächsten Runden auf Boxer A setzt, selbst wenn Boxer B die erste Runde mit einem äußerst kleinen Vorsprung gewinnt.

Zudem wirst du den Boxer B nur dann als voraussichtlichen Sieger wählen, wenn er die erste Runde mit einem großen Vorsprung gewinnt. Je größer der Prior ist, desto größer muss der Vorsprung sein, um dich zu überzeugen, deine Wettentscheidung zu ändern.

Kannst du mir folgen? Wenn ja, sind die folgenden Abschnitte leicht zu begreifen und du wirst verstehen, woher diese „95 %-Schwelle“ kommt.

Kommen wir nun zu den Tipps für die Optimierung deiner Website mit geringem Traffic.

1. Die Lösung des Problems: „Ich erreiche nie die 95 %ige Signifikanz“.

Das ist die häufigste Klage, die man über CRO für Websites mit geringem Traffic und für Seiten mit geringem Traffic auf größeren Websites hört.

Bevor wir uns diesem häufigsten Problem widmen, sollten wir zunächst die Frage beantworten, woher diese „goldene Regel“ der 95 % stammt.

Ursprung der 95 %-Schwelle

Beginnen wir unsere Erklärung mit einer sehr einfachen Idee: Was wäre, wenn Optimierungsstrategien vom ersten Tag an angewandt würden? Wenn zwei Varianten ohne Vorgeschichte gleichzeitig erstellt würden, gäbe es keine „Original“-Version, die von einem Newcomer herausgefordert werden könnte.

Dadurch wärst du gezwungen, von Anfang an die beste Version zu wählen.

In diesem Fall könnte jeder kleine Leistungsunterschied für die Entscheidungsfindung gemessen werden. Nach einem kurzen Test wirst du dich für die Variante mit der höheren Leistung entscheiden. Es wäre keine gute Strategie, die Variante mit der geringeren Leistung zu wählen, und zudem wäre es unklug, auf einen Schwellenwert von 95 % zu warten, um einen Gewinner zu ermitteln.

In der Praxis erfolgt die Optimierung jedoch erst lange nach dem Start eines Unternehmens.

In den meisten Situationen im echten Leben gibt es also eine Version A, die bereits existiert, und einen neuen Herausforderer, die Version B, die erstellt wird.

Wenn der neue Herausforderer, Version B, „auf die Bühne tritt“ und der Leistungsunterschied zwischen den beiden Varianten nicht signifikant ist, ist es für dich kein Problem, Version B nicht zum Gewinner zu erklären.

Statistische Tests sind symmetrisch. Wenn wir also die Rollen vertauschen und A und B im statistischen Test vertauschen, wirst du feststellen, dass das Original nicht deutlich besser als der Herausforderer ist. Die „Unschlüssigkeit“ des Tests ist symmetrisch.

Warum setzt du also am Ende eines nicht eindeutigen Tests 100 % des Traffics auf das Original und erklärst damit implizit A zum Sieger? Weil du drei Vorannahmen hast:

Version A war die erste Wahl. Diese Wahl wurde vom ursprünglichen Ersteller der Seite getroffen.
Version A wurde bereits implementiert und ist technisch vertrauenswürdig. Version B ist in der Regel ein Mockup.
Version A verfügt über viele Daten, die ihren Wert beweisen, während Version B ein Herausforderer mit begrenzten Daten ist, die nur während der Testphase erhoben werden.

Die Punkte 1 und 2 bilden die Grundlage einer CRO-Strategie, so dass du über diese beiden Vorannahmen hinausgehen musst. Punkt 3 erläutert, dass Version A über mehr Daten verfügt, die ihre Leistung belegen, was erklärt, warum du der Version A mehr vertraust als der Version B: Version A hat Daten.

Jetzt verstehst du, dass diese 95 %-Vertrauensregel eine Möglichkeit ist, ein großes Vorwissen zu erklären. Und dieser Prior stammt meist aus historischen Daten.

Wenn du also eine Seite mit geringem Traffic optimierst, sollte der Schwellenwert deiner Entscheidung unter 95 % liegen, weil dein Prior bei A aufgrund des Traffics und des höheren Alters schwächer ist.

Der Schwellenwert sollte entsprechend dem Traffic festgelegt werden, der vom ersten Tag beim Original vorlag. Das Problem bei dieser Methode ist jedoch, dass wir wissen, dass die Conversion Rates nicht stabil sind und sich im Laufe der Zeit ändern können. Denke an die Saisonabhängigkeit – z. B. der Ansturm am Black Friday, Urlaubstage, die erhöhte Aktivität in der Weihnachtszeit, usw. Wegen der saisonalen Schwankungen kannst du die Leistungen in verschiedenen Zeiträumen nicht vergleichen.

Aus diesem Grund berücksichtigen Praktiker nur Daten für Version A und Version B, die im gleichen Zeitraum erhoben wurden, und legen einen hohen Schwellenwert (95 %) fest, um den Herausforderer als Gewinner zu akzeptieren, um einen hohen Prior gegenüber Version A zu formalisieren.

Was ist ein angemessener Schwellenwert für geringen Traffic?

Es ist schwierig, eine genaue Zahl im Auge zu haben, da diese von deiner Risikobereitschaft abhängt.

Gemäß dem Hypothesenprotokoll solltest du im Voraus einen Zeitrahmen für die Datenerhebung festlegen.

Das bedeutet, dass die „Stopp“-Kriterien eines Tests kein statistisches Maß sind oder auf einer bestimmten Zahl basieren. Die „Stopp“-Kriterien sollten einem endenden Zeitrahmen entsprechen. Sobald der Zeitraum beendet ist, solltest du die Statistiken betrachten, um eine angemessene Entscheidung zu treffen.

AB Tasty, unsere Software zur Optimierung der Customer Experience und zum Feature Management, verwendet das Bayessche Framework, das einen Index der „Gewinnchancen“ erzeugt, welcher eine direkte Interpretation ermöglicht – anstelle eines p-Werts mit einer sehr komplexen Bedeutung.

Mit anderen Worten, der „Index der Gewinnchancen“ ist die Wahrscheinlichkeit, dass eine bestimmte Variante besser als das Original ist.

Eine 95 %ige „Gewinnchance“ bedeutet also, dass die gegebene Variante mit 95 %iger Wahrscheinlichkeit der Gewinner sein wird. Dabei wird davon ausgegangen, dass wir kein Vorwissen oder besonderes Vertrauen in das Original haben.

Der Schwellenwert von 95 % ist auch ein Standardkompromiss zwischen dem Prior beim Original und einer bestimmten Risikoakzeptanz (es hätte auch ein Schwellenwert von 98 % sein können).

Obwohl es schwierig ist, eine genaue Zahl zu nennen, können wir eine grobe Größenordnung für den Schwellenwert angeben:

Neue A- und B-Varianten: In einem Fall, in dem sowohl Variante A als auch Variante B neu sind, könnte der Schwellenwert bei nur 50 % liegen. Wenn es keine Daten über die Leistung der Varianten in der Vergangenheit gibt und du eine Entscheidung über die Implementierung treffen musst, ist selbst eine 51 %ige Chance auf Erfolg besser als eine 49 %ige.
Neue Website, geringer Traffic: Wenn deine Website neu ist und einen besonders geringen Traffic aufweist, hast du wahrscheinlich einen besonders geringen Prior bei Variante A (in diesem Fall die ursprüngliche Variante). In diesem Fall ist ein Schwellenwert von 85 % angemessen. Denn wenn du das Wenige beiseite lässt, was du über das Original weißt, hast du immer noch eine 85 %ige Chance für die Auswahl des Gewinners und nur eine 15 %ige für die Auswahl einer Variante, die dem Original gleichwertig ist. Das Risiko, dass sie schlechter abschneidet, ist geringer. Je nach Kontext kann eine solche Wette also durchaus Sinn ergeben.
Ausgereiftes Unternehmen, geringer Traffic: Wenn dein Unternehmen schon länger besteht, aber immer noch wenig Besucher zählt, sind 90 % ein vernünftiger Schwellenwert, da der Prior über das Original noch relativ klein ist.
Ausgereiftes Unternehmen, hoher Traffic: Bei einem hohen Prior oder einer großen Menge an Daten bei Variante A wird ein Schwellenwert von 95 % empfohlen.

Der ursprüngliche Schwellenwert von 95 % ist viel zu hoch, wenn dein Unternehmen einen geringen Traffic aufweist, da die Wahrscheinlichkeit gering ist, diesen Wert zu erreichen. Demzufolge wird deine CRO-Strategie wirkungslos sein und eine datengestützte Entscheidungsfindung wird unmöglich.

Wenn du AB Tasty als Experimentierplattform verwendest, erhältst du einen Bericht, der die „Gewinnchance“ zusammen mit anderen statistischen Informationen über deine Experimente enthält. Ein Bericht von AB Tasty enthält auch das Konfidenzintervall für den geschätzten Gewinn als wichtigen Indikator. Die Grenzen um den geschätzten Gewinn werden ebenfalls nach dem Bayesschen Prinzip berechnet, d. h. sie können als bestes und schlechtestes Szenario interpretiert werden.

Die Bedeutung der Bayesschen Statistik

Jetzt verstehest du die genaue Bedeutung des wohlbekannten 95 %-igen „Signifikanzniveaus“ und kannst geeignete Schwellenwerte für deinen speziellen Fall wählen.

Es ist wichtig, sich daran zu erinnern, dass dieser Ansatz nur mit der Bayesschen Statistik funktioniert, da frequentistische Ansätze statistische Indizes (wie p-Werte und Konfidenzintervalle) liefern, die eine völlig andere Bedeutung haben und für die erklärte Logik nicht geeignet sind.

2. Sind die Statistiken bei kleinen Zahlen gültig?

Ja, solange man den Test nicht abhängig vom Ergebnis abbricht.

Denke daran, dass laut Testprotokoll der einzige Grund für den Teststopp das Ende des Zeitrahmens ist. In diesem Fall sind die statistischen Indizes („Gewinnchancen“ und Konfidenzintervall) wahr und brauchbar.

Du denkst jetzt möglicherweise: „Okay, aber dann erreiche ich selten das Signifikanzniveau von 95 % …“

Vergiss nicht, dass der Schwellenwert von 95 % nicht in allen Fällen die magische Zahl sein muss. Bei einem geringen Traffic ist deine Website wahrscheinlich noch nicht alt. Wenn du dich auf den vorherigen Punkt beziehst, kannst du einen Blick auf unsere vorgeschlagene Skala für verschiedene Szenarien werfen.

Wenn du als neueres Unternehmen mit geringerem Traffic zu tun hast, kannst du sicherlich zu einem niedrigeren Schwellenwert (wie z. B. 90 %) wechseln. Der Schwellenwert ist immer noch höher, weil man in der Regel mehr Vertrauen in ein Original als in eine Variante hat, da sie schon länger verwendet wird.

Wenn es sich um zwei völlig neue Varianten handelt, ist es am Ende des Testzeitraums einfacher, die Variante mit den höheren Conversion Rates auszuwählen (ohne eine Statistik zu verwenden), da es kein Vorwissen über die Leistung von A oder B gibt.

3. Gehe „weiter nach oben“

Manchmal ist das Traffic-Problem nicht auf eine Website mit geringem Traffic zurückzuführen, sondern auf die betreffende Webseite. Normalerweise befinden sich Seiten mit geringem Traffic am Ende des Funnels.

In diesem Fall ist es eine gute Strategie, an der Optimierung des Funnels näher am Einstiegspunkt der Nutzer zu arbeiten. Möglicherweise gibt es mit einer optimierten digitalen Customer Journey noch mehr aufzudecken, bevor das Ende des Funnels erreicht wird.

4. Ist die CUPED-Technik real?

Was ist CUPED?

CUPED bzw. „Controlled Experiment Using Pre-Experiment Data“ ist ein neues Schlagwort in der Welt der Experimente. CUPED ist eine Technik, die angeblich bis zu 50 % schnellere Ergebnisse liefert. Für Websites mit geringem Traffic natürlich sehr verlockend.

Funktioniert CUPED wirklich so gut?

Nicht ganz, und zwar aus zwei Gründen: zum einen aus organisatorischen Gründen und zum anderen wegen der Anwendbarkeit.

Die organisatorische Einschränkung

Was oft vergessen wird, ist, dass CUPED für Controlled Experiment Using Pre-Experiment Data steht.

In der Praxis beträgt der ideale Zeitraum für „Daten vor dem Experiment“ zwei Wochen, um eine Zeitersparnis von 50 % zu erreichen.

Bei einem klassischen 2-Wochen-Test behauptet CUPED also, dass du den Test in nur einer Woche beenden kannst.

Um jedoch die Ergebnisse richtig einschätzen zu können, benötigst du zwei Wochen Daten aus der Zeit vor dem Experiment. Du musst also drei Wochen Zeit haben, um CUPED zu implementieren und die gleiche Genauigkeit wie bei einem klassischen 2-Wochen-Test zu erzielen.

Ja, du hast richtig gelesen. Letztendlich brauchst du drei Wochen, um das Experiment durchzuführen.

Das bedeutet, dass es nur dann sinnvoll ist, wenn du bereits zwei Wochen Traffic-Daten gesammelt hast, die nicht für Experimente genutzt werden. Selbst wenn du zwei experimentlose Wochen in die Planung deiner Experimente integrieren kannst, um Daten zu sammeln, wird dies den Traffic für andere Experimente blockieren.

Die Anwendbarkeitsbeschränkung

Zusätzlich zu der organisatorischen/2-wöchigen Zeitbeschränkung gibt es zwei weitere Voraussetzungen, damit CUPED effektiv ist:

CUPED ist nur auf Besucher anwendbar, die durch die Website sowohl in der Zeit vor dem Experiment als auch währenddessen navigieren.
Diese Besucher müssen dasselbe Verhalten hinsichtlich der zu optimierenden KPI zeigen. Die Daten der Besucher müssen zwischen den beiden Zeiträumen korrelieren.

Du wirst im folgenden Abschnitt sehen, dass CUPED durch diese beiden Einschränkungen für E-Commerce-Websites praktisch nicht möglich und nur für Plattformen anwendbar ist.

Kehren wir zu unserem Beispiel der Experimentiereinstellungen zurück:

Zwei Wochen Daten aus der Zeit vor dem Experiment
Zwei Wochen Experimentdaten (von denen wir hoffen, dass sie nur eine Woche dauern, da eine Zeitersparnis von 50 % erwartet wird)
Das Optimierungsziel ist eine Transaktion: Erhöhung der Anzahl von Conversions.

Einschränkung Nr. 1 besagt, dass wir die gleichen Besucher vor dem Experiment und währenddessen haben müssen, aber die Customer Journey eines Users im E-Commerce dauert in der Regel nur etwa eine Woche.

Mit anderen Worten, die Wahrscheinlichkeit, dass dieselben Besucher in beiden Zeiträumen die Website besuchen, ist sehr gering. In diesem Zusammenhang ist nur ein sehr begrenzter Effekt von CUPED zu erwarten (bis hin zum Anteil der Besucher in beiden Zeiträumen).

Einschränkung Nummer 2 besagt, dass die Besucher das gleiche Verhalten hinsichtlich der Conversion (den zu optimierenden KPI) aufweisen müssen. Offen gestanden, diese Bedingung wird im E-Commerce einfach nie erfüllt.

Die Conversion im E-Commerce findet entweder während des Pre-Experiments oder während des Experiments statt, aber nicht bei beiden (es sei denn, deine Kunden kaufen häufig mehrmals während des Experimentierzeitraums ein).

Das bedeutet, dass es keine Chance gibt, dass die Conversions der Besucher zwischen den Zeiträumen korrelieren.

Zusammenfassend gesagt: CUPED ist zur Optimierung von Transaktionen auf Websites im E-Commerce einfach nicht geeignet.

In der wissenschaftlichen Originalarbeit wird dies klar hervorgehoben, aber der Beliebtheit halber wird diese Technik in der Testbranche falsch dargestellt.

Tatsächlich – und das ist in der wissenschaftlichen Literatur klar dargelegt – funktioniert CUPED nur bei mehrfachen Conversions für Plattformen mit wiederkehrenden Besuchern, die dieselben Aktionen durchführen.

Ausgezeichnete Plattformen für CUPED wären Suchmaschinen (wie Bing, auf der diese Technik erfunden wurde) oder Streaming-Plattformen, die User täglich besuchen und dieselben wiederkehrenden Aktionen ausführen (ein Video abspielen, auf einen Link in einer Suchergebnisseite klicken, usw.).

Selbst wenn du versuchst, eine Anwendung von CUPED für den E-Commerce zu finden, wirst du feststellen, dass dies nicht möglich ist.

Man könnte versuchen, die Anzahl der gesehenen Produkte zu optimieren, aber das Problem von Einschränkung 1 bleibt bestehen: eine sehr geringe Anzahl von Besuchern wird in beiden Datensätzen vorhanden sein. Und es gibt noch einen noch fundamentaleren Einwand – dieser KPI sollte nicht allein optimiert werden, da du sonst möglicherweise dazu beiträgst, dass Besucher zwischen den Produkten zögern.
Du kannst nicht einmal versuchen, die Anzahl der von den Besuchern bestellten Produkte mit CUPED zu optimieren, da die Einschränkung Nummer 2 immer noch gilt. Der Kauf kann als unverzüglich betrachtet werden. Daher kann er nur in dem einen oder in dem anderen Zeitraum stattfinden – nicht in beiden. Wenn keine Korrelation des Besucherverhaltens zu erwarten ist, ist auch kein CUPED-Effekt zu erwarten.

Schlussfolgerung über CUPED

CUPED eignet sich nicht für Websites im E-Commerce, bei denen eine Transaktion das Hauptziel der Optimierung ist. CUPED ist nicht dein Geheimrezept, das dir hilft, dein Unternehmen zu optimieren – es sei denn, du bist Bing, Google oder Netflix.

Diese Technik ist sicherlich ein Schlagwort, das schnell Interesse weckt, aber es ist wichtig, das Gesamtbild zu sehen, bevor man CUPED in seine Roadmap aufnimmt. Marken im E-Commerce sollten daran denken, dass diese Testtechnik nicht für ihr Unternehmen geeignet ist.

Optimierung für Websites mit geringem Traffic

Marken mit geringem Traffic sind immer noch erstklassige Kandidaten für die Website-Optimierung, auch wenn sie sich möglicherweise an einen anderen Ansatz anpassen müssen, der nicht so traditionell ist.

Ob die Optimierung deiner Webseiten bedeutet, eine Seite zu wählen, die im Funnel weiter oben anzutreffen ist, oder ob du eine etwas niedrigere Schwelle wählst – entscheidend ist, dass die Optimierung kontinuierlich verläuft.

Möchtest du mit der Optimierung deiner Website beginnen? AB Tasty ist die branchenführende Plattform zur Optimierung der User Experience, mit der du schnell für ein umfassenderes digitales Erlebnis sorgen kannst. Von Experimenten bis hin zur Personalisierung kann diese Lösung dir helfen, deine Zielgruppe zu aktivieren und sich zu engagieren, um deine Conversions zu steigern.

Das könnte dir auch gefallen...

Alle

Blogartikel

3min. Lesezeit

Feedback Copilot: Die Stimme des Kunden in Sekundenschnelle mit KI in die Tat umsetzen

AB Tasty

5. Juni 2025

Blogartikel

5min. Lesezeit

1,000 Experiments Club: Ein Gespräch mit Carlos Gonzalez de Villaumbrosia von Product School

AB Tasty

24. Feb. 2025

Blogartikel

5min. Lesezeit

1,000 Experiments Club: Ein Gespräch mit Chad Sanderson von Convoy

AB Tasty

10. Dez. 2024

Blogartikel

2. Feb. 2022

18min. Lesezeit

Bayes vs. Frequentist: Wie AB Tasty sich für ein statistisches Modell entschieden hat

Hubert Wassner

Die Debatte über die beste Methode zur Interpretation von Testergebnissen gewinnt in der Welt der Conversion Rate Optimierung zunehmend an Bedeutung.

Zwei inferenzstatistische Methoden (Bayessche vs. Frequentistische) lösen heftige Diskussionen darüber aus, welche die „beste“ sei. Bei AB Tasty haben wir beide Ansätze sorgfältig untersucht und für uns gibt es nur einen Gewinner.

Bayes vs. Frequentist — Es gibt viele Diskussionen über die optimale statistische Methode: Bayessche vs. Frequentistische Methode (Source)

Lassen Sie uns zunächst auf die Logik hinter den beiden Methoden eingehen und die wesentlichen Unterschiede sowie Vorteile beider Methoden untersuchen. In diesem Artikel greifen wir folgende Punkte auf:

[toc]

Was sind Hypothesentests?

Der Rahmen für statistische Hypothesentests bei digitalen Experimenten kann durch zwei gegenteilige Hypothesen ausgedrückt werden:

H0 besagt, dass es keinen Unterschied zwischen dem Treatment (die bearbeitete Variante) und der Originalversion gibt. Mit anderen Worten: das Treatment hat keinen Einfluss auf den gemessenen KPI.
H1 besagt, dass es einen Unterschied zwischen dem Treatment und der Originalversion gibt. Somit hat das Treatment also Einfluss auf den gemessenen KPI.

Ziel ist es, Indikatoren zu berechnen, die Ihnen anhand der experimentellen Daten bei der Entscheidung helfen, ob Sie das Treatment (im Kontext von AB Tasty eine Variante) beibehalten oder verwerfen sollen. Zunächst bestimmen wir die Anzahl der zu testenden BesucherInnen, sammeln die Daten und prüfen dann, ob die Variante besser als das Original abschneidet.

Gewinnervariante Bayes — Es gibt zwei Hypothesen im statistischen Hypothesen-Vorgehen (Quelle)

Im Wesentlichen gibt es zwei Ansätze für statistische Hypothesentests:

Frequentistischer Ansatz: Vergleich der Daten mit einem Modell.
Bayesscher Ansatz: Vergleich zweier Modelle (die aus Daten erstellt wurden).

Zur Durchführung des aktuellen Reportings und der Experimente, entschied sich AB Tasty vom ersten Moment an für den Bayesschen Ansatz.

Was ist der frequentistische Ansatz?

Bei diesem Ansatz erstellen wir ein Modell Ma für die Originalversion (A), die die Wahrscheinlichkeit P angibt, bestimmte Daten Da zu sehen. Es handelt sich dabei um folgende Funktion:

Ma(Da) = p

Dann können wir aus Ma(Db) einen p-Wert (Pv) errechnen. Dieser gibt die Wahrscheinlichkeit an, die bei Variante B gemessenen Daten zu sehen, wenn sie durch die Originalversion (A) erzeugt wurden.

Rein vom Gefühl her bedeutet ein hoher Pv, dass die bei B gemessenen Daten auch von A hätten produziert werden können (was die Hypothese H0 unterstützt). Ist Pv hingegen niedrig, bedeutet dies, dass die Wahrscheinlichkeit sehr gering ist, dass die bei B gemessenen Daten auch durch A hätten erzeugt werden können (was die Hypothese H1 unterstützt).

Ein weit verbreiteter Schwellenwert für Pv ist 0,05. Das heißt, damit die Variante einen Effekt hat, muss die Wahrscheinlichkeit unter 5 % liegen, dass die bei B gemessenen Daten auch von A stammen könnten.

Dieser Ansatz bietet den wesentlichen Vorteil, dass nur A modelliert werden muss. Dies ist interessant, da es sich um die ursprüngliche Variante handelt und diese schon länger als B existiert. Man könnte also durchaus glauben, dass man über einen langen Zeitraum Daten aus A sammeln kann, um aus diesen Daten ein genaues Modell zu erstellen. Leider bleibt der KPI, den wir beobachten, nur selten unverändert. Transaktionen oder Klickraten sind im Laufe der Zeit sehr variabel, weshalb man das Modell Ma erstellen und die Daten aus B im selben Zeitraum erheben muss, um einen gültigen Vergleich zu erhalten. Dieser Vorteil lässt sich offensichtlich nicht im Kontext digitaler Experimente anwenden.

Dieser Ansatz wird als „Frequentist“ bezeichnet, da er die Frequenz misst, in der bestimmte Daten wahrscheinlich bei einem bekannten Modell auftreten.

Wichtig ist darauf hinzuweisen, dass dieser Ansatz – wie wir oben gesehen haben – die beiden Prozesse nicht vergleicht.

Hinweis: Da p-Werte nicht intuitiv sind, werden sie oft wie folgt in eine Wahrscheinlichkeit umgewandelt:

p = 1-P-Wert

Häufig werden sie fälschlicherweise als die Wahrscheinlichkeit dargestellt, dass H1 wahr ist (was bedeutet, dass es einen Unterschied zwischen A und B gibt). Tatsächlich handelt es sich aber, um die Wahrscheinlichkeit, dass die bei B gesammelten Daten nicht von A erzeugt wurden.

Was ist der Bayessche Ansatz (den AB Tasty verwendet)?

Bei diesem Ansatz erstellen wir zwei Modelle, Ma und Mb (eines für jede Variante) und vergleichen sie dann. Diese Modelle, die auf der Grundlage von experimentellen Daten erstellt werden, erzeugen nach dem Zufallsprinzip die Stichproben: A und B. Wir verwenden diese Modelle, um Stichproben möglicher Raten zu erstellen und die Differenz zwischen diesen Raten zu berechnen. Mit dem Ziel, die Verteilung der Differenz zwischen den beiden Prozessen einzuschätzen.

Im Gegensatz zum ersten Ansatz, vergleicht dieser zwei Modelle miteinander. Hier spricht man vom Bayesschen Ansatz oder der Bayesschen Methode.

Nun müssen wir ein Modell für A und B erstellen.

Klicks können als Binomialverteilungen, mit den Parametern Anzahl der Versuche und Erfolgsquote, dargestellt werden. Bei digitalen Experimenten entspricht die Anzahl der Versuche der Anzahl der BesucherInnen und die Erfolgsquote der Klick- oder Transaktionsrate. In diesem Fall ist es wichtig zu wissen, dass es sich bei den uns betreffenden Raten nur um Schätzungen für eine begrenzte Anzahl von BesucherInnen handelt. Um diese begrenzte Genauigkeit zu modellieren, verwenden wir Beta-Verteilungen (entspricht der konjugierten a-priori-Verteilung von Binomialverteilungen).

Diese Verteilungen modellieren die Wahrscheinlichkeit einer Erfolgsquote, die bei einer begrenzten Anzahl von Versuchen gemessen wird.

Beispiel:

1.000 BesucherInnen bei A mit 100 Erfolgen
1.000 BesucherInnen bei B mit 130 Erfolgen

Wir erstellen das Modell Ma = beta(1+Erfolg_a,1+Misserfolge_a), wobei Erfolg_a = 100 & Misserfolge_a = BesucherInnen_a – Erfolg_a =900 ist.

Sicher haben Sie ein +1 für die Parameter Erfolg und Misserfolg bemerkt, was sich in der Bayesschen Analyse durch den „Prior“ erklären lässt. Ein Prior ist etwas, was Sie bereits vor dem Experiment kennen. Z.B. etwas, was aus einem anderen (früheren) Experiment abgeleitet wurde. Bei digitalen Experimenten ist jedoch gut dokumentiert, dass die Klickraten nicht gleichbleibend sind und sich je nach Tages- oder Jahreszeit ändern können. Folglich können wir dies in der Praxis nicht verwenden. Die entsprechende Prior-Einstellung +1 ist einfach ein nicht informativer Prior, da Sie auf keine vorherigen brauchbaren Experimentierdaten zurückgreifen können.

Bei den drei folgenden Diagrammen entspricht die horizontale Achse der Klickrate und die vertikale Achse der Wahrscheinlichkeit dieser Rate. Dabei ist bekannt, dass bei einem vorherigen Experiment 100 Erfolge bei 1.000 Versuchen verzeichnet wurden.

Modell A Klickrate Bayes — (Quelle: AB Tasty)

Normalerweise sind hier 10 % am wahrscheinlichsten, 5 % oder 15 % sehr unwahrscheinlich und 11 % halb so wahrscheinlich wie 10 %.

Das Modell Mb wird mit den Daten aus Versuch B auf die gleiche Weise erstellt:

Mb= beta(1+100,1+870)

Für B liegt die wahrscheinlichste Rate bei 13 % während die Breite der Kurve ähnlich der vorherigen Kurve ist.

Nun vergleichen wir die Ratenverteilung von A und B.

Ratenverteilung Modell Bayes — Blau steht für A und Orange für B (Quelle: AB Tasty)

Wir sehen einen sich überlappenden Bereich bei einer Conversion Rate von 12 %. Hier haben beide Modelle die selbe Wahrscheinlichkeit. Für eine Schätzung des sich überlappenden Bereichs müssen wir aus beiden Modellen Stichproben ziehen und sie vergleichen.

Wir ziehen Stichproben aus den Verteilungen A und B:

s_a[i] ist die Stichprobe i th aus A
s_b[i] ist die Stichprobe i th aus B

Dann wenden wir eine Vergleichsfunktion auf diese Stichproben an:

der relative Gewinn: g[i] =100* (s_b[i] – s_a[i])/s_a[i] für alle i.

Es handelt sich um die Differenz zwischen den möglichen Raten für A und B in Bezug auf A (multipliziert mit 100 für die Lesbarkeit in %).

Nun können wir die Stichproben g[i] mit einem Histogramm analysieren:

Gewinnervariante Histogramm Bayesscher Ansatz — Die horizontale Achse ist der relative Gewinn, die vertikale Achse die Wahrscheinlichkeit dieses Gewinns (Quelle: AB Tasty)

Wir sehen, dass der wahrscheinlichste Wert für den Gewinn bei rund 30 % liegt.

Die gelbe Linie zeigt, wo der Gewinn bei 0 liegt, d. h. es gibt keinen Unterschied zwischen A und B. Stichproben links von dieser Linie entsprechen Fällen, in denen A > B ist. Stichproben auf der anderen Seite sind Fälle, in denen A < B ist.

Anschließend definieren wir die Gewinnwahrscheinlichkeit wie folgt:

GW = (Anzahl der Stichproben > 0)/Gesamtanzahl der Stichproben

Bei 1.000.000 (10^6) Stichproben für g haben wir 982.296 Stichproben >0, sodass B>A ~ zu 98 % wahrscheinlich ist.

Wir nennen dies die „Gewinnchancen“ oder die „Gewinnwahrscheinlichkeit“ (die Wahrscheinlichkeit, dass man etwas gewinnt).

Die Gewinnwahrscheinlichkeit wird im Report hier dargestellt (siehe rotes Rechteck):

AB Tasty Bayesscher Ansatz — (Source: AB Tasty)

Mit der gleichen Stichprobenmethode können wir klassische Analysekennzahlen wie Mittelwert, Median, Perzentile usw. berechnen.

Bei Betrachtung des vorherigen Diagramms geben die roten vertikalen Linien an, wo sich der größte Teil des blauen Bereichs befindet, d. h. intuitiv, welche Gewinnwerte am wahrscheinlichsten sind.

Wir haben entschieden, ein Best Case- und ein Worst Case-Szenario mit einem Konfidenzintervall von 95 % zu präsentieren. Dabei wurden 2,5 % der Fälle im Extrembereich (beste und schlechteste Fälle) ausgeschlossen, sodass insgesamt 5 % der von uns als selten betrachteten Ereignisse unberücksichtigt bleiben. Dieses Intervall wird durch die roten Linien im Diagramm abgegrenzt. Wir gehen davon aus, dass der tatsächliche Gewinn (so, als wenn wir für die Messung eine unendliche Anzahl an BesucherInnen hätten) in 95 % der Fälle irgendwo in diesem Intervall liegt.

In unserem Beispiel liegt dieses Intervall bei [1,80 %, 29,79 %, 66,15 %], was bedeutet, dass es relativ unwahrscheinlich ist, dass der tatsächliche Gewinn unter 1,8 % liegt. Ebenso ist es relativ unwahrscheinlich, dass der Gewinn 66,15 % überschreitet. Und die Wahrscheinlichkeit ist gleichermaßen groß, dass die reelle Rate über oder unter dem Medianwert von 29,79 % liegt.

Das Konfidenzintervall wird im Report (eines anderen Experiments) hier dargestellt (siehe rotes Rechteck):

Was sind „Prior“ beim Bayesschen Ansatz?

In Bayesschen Frameworks wird der Begriff „Prior“ für die Informationen verwendet, über die Sie vor dem Experiment verfügen. Ein Beispiel: Allgemein ist bekannt, dass die Transaktionsrate im e-Commerce in den meisten Fällen unter 10 % liegt.

Es wäre sehr interessant gewesen, diesen Punkt einzubinden, aber diese Vermutungen sind in der Praxis schwer anzustellen, da die Saisonalität der Daten einen großen Einfluss auf die Klickraten hat. Tatsächlich liegt hier der Hauptgrund, weshalb wir die Daten für A und B gleichzeitig erheben. Meistens liegen uns bereits vor dem Experiment Daten von A vor. Wir wissen jedoch, dass sich die Klickraten im Laufe der Zeit ändern, sodass wir die Klickraten im Hinblick auf einen gültigen Vergleich für alle Varianten gleichzeitig erheben müssen.

Daraus folgt, dass wir einen nicht-informativen Prior verwenden müssen. Das bedeutet, dass wir vor dem Experiment nur wissen, dass die Raten zwischen [0 %, 100 %] liegen. Wir wissen nicht, wie hoch der Gewinn ausfallen kann. Dieselbe Vermutung wie beim Frequentistischen Ansatz, auch wenn sie nicht formuliert wurde.

Herausforderungen bei statistischen Tests

Wie bei jedem Testansatz wird auch hier das Ziel gesetzt, Fehler auszuschalten. Es gibt zwei Arten von Fehlern, die Sie vermeiden sollten:

Falsch positiv (FP): Wenn Sie eine Gewinnervariante auswählen, die in Wirklichkeit nicht die Variante mit der besten Performance ist.
Falsch negativ (FN): Wenn Sie eine Gewinnervariante verpassen. Entweder deklarieren Sie am Ende des Experiments keinen Gewinner oder den falschen Gewinner.

Die Performance bei beiden Messungen hängt vom verwendeten Schwellenwert (p-Wert oder Gewinnwahrscheinlichkeit) ab, der wiederum vom Kontext des Experiments abhängt. Die Entscheidung muss der oder die NutzerIn treffen.

Ein weiterer wichtiger Parameter ist die Anzahl der für das Experiment herangezogenen BesucherInnen, da sie einen starken Einfluss auf die falsch negativen Fehler hat.

Aus geschäftlicher Sicht ist ein falsch negatives Ergebnis eine verpasste Chance. Bei der Reduzierung falsch negativer Fehler geht es hauptsächlich um die Größe der Population, die dem Test zugewiesen ist: im Grunde genommen geht es darum, dem Problem mehr Besucher zuzuführen.

Das Hauptproblem sind allerdings falsch positive Ergebnisse, die hauptsächlich in zwei Situationen auftreten:

Bereits sehr früh im Experiment: Bevor die angestrebte Stichprobengröße erreicht ist, wenn die Gewinnwahrscheinlichkeit höher als 95 % ist. Es passiert, dass NutzerInnen zu ungeduldig sind und zu schnell Schlüsse ziehen, ohne dass genügend Daten vorliegen; das Gleiche gilt für falsch positive Ergebnisse.
Sehr spät im Experiment: Wenn die angestrebte Stichprobengröße erreicht ist, aber kein signifikanter Gewinner gefunden wird. Manche UserInnen glauben zu sehr an ihre Hypothese und wollen ihr eine weitere Chance geben.

Beide Probleme können durch strikte Einhaltung des Testprotokolls vermieden werden, indem Sie einen Testzeitraum mit einem Stichprobenrechner festlegen und sich daran halten.

Bei AB Tasty gibt es eine visuelle Markierung mit dem Namen „Readiness“. Sie zeigt an, ob Sie sich an das Protokoll halten (ein Zeitraum von mindestens 2 Wochen und mindestens 5.000 BesucherInnen). Bei jeder Entscheidung über diese Richtlinien hinaus sollten die im nächsten Abschnitt beschriebenen Regeln beachtet werden, um das Risiko falsch positiver Ergebnisse zu reduzieren.

Dieser Screenshot zeigt, wie UserInnen darüber informiert werden, ob Maßnahmen ergriffen werden können.

AB Tasty Bayessche Methode — (Quelle: AB Tasty)

Während des Zeitraums der Datenerhebung sollte man im Report lediglich prüfen, ob die Erhebung korrekt ist (ohne Häkchen bei „Zuverlässigkeit“) und nur nach extremen Fälle suchen, bei denen sofort gehandelt werden muss. Geschäftliche Entscheidungen aber sollten noch nicht getroffen werden.

Wann sollten Sie Ihr Experiment abschließen?

Early Stop

Bei einem „Early Stop“ möchte ein Nutzer oder eine Nutzerin einen Test stoppen, bevor die zugewiesene Anzahl der BesucherInnen erreicht ist.

Der oder die NutzerIn sollte warten, bis die Kampagne mindestens 1.000 BesucherInnen erreicht hat, und erst bei besonders hohen Verlusten abbrechen.

Wenn ein Nutzer oder eine Nutzerin für eine vermeintliche Gewinnervariante vorzeitig aufhören möchte, sollte mindestens zwei Wochen gewartet und nur Daten einer vollständigen Woche genutzt werden. Diese Taktik ist dann interessant, wenn die Geschäftskosten eines falsch positiven Ergebnisses noch in Ordnung sind. Dann ist es wohl wahrscheinlicher dass die Performance der vermeintlichen Gewinnervariante ähnlich zu der des Original ist, als dass ein Verlust entsteht.

Nochmals: Wenn dieses Risiko aus geschäftsstrategischer Sicht akzeptabel ist, ist diese Taktik sinnvoll.

Wenn ein(e) UserIn zu Beginn eines Tests eine Gewinnervariante (mit einer hohen Gewinnwahrscheinlichkeit) sieht, sollte für das Worst Case-Szenario eine Marge sichergestellt werden. Eine untere Grenze für den Gewinn nahe 0 % kann sich durchaus ändern und am Ende des Tests unter oder weit unter null liegen, was die anfangs angenommene hohe Gewinnwahrscheinlichkeit untergräbt. Die Vermeidung eines vorzeitigen Abbruchs mit einer niedrigen linken Konfidenzgrenze trägt dazu bei, falsch positive Ergebnisse zu Beginn eines Tests auszuschließen.

Beispielsweise ist eine Situation mit einer Gewinnwahrscheinlichkeit von 95 % und einem Konfidenzintervall wie [-5,16 %, 36,48 %, 98,02 %] ein Merkmal für einen vorzeitigen Abbruch. Die Gewinnwahrscheinlichkeit liegt über dem akzeptierten Standard, weshalb man vielleicht also 100 % des Traffics auf die Gewinnvariante leiten möchte. Das Worst Case-Szenario (-5,16 %) liegt jedoch relativ weit unter 0 %, was auf ein mögliches falsch positives Ergebnis hindeutet und somit auf jeden Fall riskant ist. Denn im Worst Case-Szenario gehen 5 % der Conversions verloren. Besser ist es so lange zu warten, bis die untere Grenze des Konfidenzintervalls bei mindestens >0 % liegt. Eine kleine Marge darüber wäre noch sicherer.

Später Abbruch

Bei einem „späten Abbruch“ lässt man am Ende eines Tests den Test länger als ursprünglich geplant laufen, da keine signifikante Gewinnervariante gefunden wurde. Der Nutzer oder die Nutzerin vertritt dabei die Hypothese, dass der Gewinn kleiner als erwartet ausfällt und für eine signifikante Aussage mehr BesucherInnen benötigt werden.

Wenn man entscheidet, ob die Laufzeit des Tests verlängert werden soll, ohne dem Protokoll zu folgen, sollte eher das Konfidenzintervall statt die Gewinnwahrscheinlichkeit berücksichtigt werden.

Wer Tests länger als geplant durchführen möchte, dem raten wir, nur sehr vielversprechende Tests zu verlängern. Dies bedeutet, einen hohen Wert für das beste Szenario zu haben (die rechte Grenze des Konfidenzintervalls sollte hoch sein).

Zum Beispiel ist dieses Szenario mit einer Gewinnwahrscheinlichkeit von 99 % und einem Konfidenzintervall von [0,42 %, 3,91 %] typisch für einen Test, der nicht über seine geplante Dauer hinaus verlängert werden sollte: Eine große Gewinnwahrscheinlichkeit, aber kein hohes Best Case-Szenario (nur 3,91 %).

Beachten Sie, dass sich das Konfidenzintervall mit zunehmender Stichprobenzahl verkleinert. Das heißt, wenn es am Ende tatsächlich eine Gewinnervariante gibt, wird ihr Best Case-Szenario wahrscheinlich kleiner als 3,91 % sein. Lohnt sich das wirklich? Wir raten, zum Stichprobenrechner zurückzukehren und zu sehen, wie viele BesucherInnen für eine solche Genauigkeit erforderlich sind.

Hinweis: Diese Zahlenbeispiele stammen aus einer Simulation von A/A-Tests, wobei ein gescheiterter Test ausgewählt wurden.

Die Lösung: Konfidenzintervalle

Die Verwendung des Konfidenzintervalls anstelle der alleinigen Betrachtung der Gewinnwahrscheinlichkeit wird die Entscheidungsfindung erheblich verbessern. Ganz zu schweigen davon, dass dies unabhängig vom Problem falsch positiver Ergebnisse geschäftlich wichtig ist. Alle Varianten müssen die Kosten für die Umsetzung in der Produktion decken. Man darf nicht vergessen, dass die Originalversion bereits besteht und keine zusätzlichen Kosten verursacht. Daher tendiert man implizit und pragmatisch immer zum Original.

Jede Optimierungsstrategie sollte einen minimalen Schwellenwert für die Größe des Gewinns haben.

Eine andere Art von Problem kann auftreten, wenn mehr als zwei Varianten getestet werden. In diesem Fall wird eine Holm-Bonferroni-Korrektur angewendet.

Warum AB Tasty den Bayesschen Ansatz gewählt hat

Zusammengefasst, was ist nun besser? Die Bayessche oder die frequentistische Methode?

Wie bereits gesagt: beide statistischen Methoden sind tragfähig. AB Tasty hat sich aus den folgenden Gründen für das Bayessche Statistikmodell entschieden:

Verwendung eines Wahrscheinlichkeitsindexes, der eher dem entspricht, was die Nutzer und Nutzerinnen denken, statt eines p-Werts oder eines verschleierten Werts
Bereitstellung von Konfidenzintervallen für fundiertere Geschäftsentscheidungen (nicht alle Gewinnervarianten sind wirklich interessant, um sie in die Produktion zu bringen). Ebenfalls ein Mittel, um falsch positive Fehler zu reduzieren.

Im Endeffekt ergibt es einen Sinn, dass die frequentistische Methode ursprünglich von so vielen Unternehmen übernommen wurde. Am Ende handelt es sich um eine Standardlösung, die leicht zu codieren und in jeder Statistikbibliothek zu finden ist (ein besonders wichtiger Vorteil, da die meisten EntwicklerInnen keine Statistiker sind).

Dennoch, auch wenn diese Methode anfangs für Experimente großartig war, gibt es heute bessere Möglichkeiten: die Bayessche Methode. Alles hängt davon ab, was Ihnen diese Möglichkeiten bieten: Während die frequentistische Methode zeigt, ob es einen Unterschied zwischen A und B gibt, geht die Bayessche Methode einen Schritt weiter und berechnet, wie groß der Unterschied ist.

Kurzum, bei Durchführung eines Experiments haben Sie bereits die Werte für A und B. Nun möchten Sie herausfinden, welchen Gewinn Sie erzielen, wenn Sie von A zu B wechseln. Diese Frage lässt sich am besten mit einem Bayesschen Test beantworten.