Blogartikel

15min. Lesezeit

Wie du mit geringem Traffic im Rahmen der CRO umgehst

Wenn die Besucherzahlen deiner Website nicht so hoch sind wie erhofft, ist das kein Grund, deine Ziele bei der Conversion-Rate-Optimierung (CRO) aufzugeben.

Mittlerweile hast du sicher bemerkt, dass die meisten Tipps zur CRO auf Websites mit einem hohen Traffic zugeschnitten sind. Zum GlĂŒck bedeutet das aber nicht, dass du deine Website nicht auch dann optimieren kannst, wenn du weniger Besucher hast.

De facto kann jede Website optimiert werden – Du musst nur deine Optimierungsstrategie an deine einzigartige Situation anpassen.

In diesem Artikel greifen wir folgende Punkte auf:

 

CRO-Analogie

Um diesen Artikel besser verstehen zu können, beginnen wir mit einer Analogie. Stell dir vor, statt zwei Varianten zu messen und einen Gewinner zu ermitteln, messen wir die Leistung von zwei Boxern und schließen Wetten ab, wer die nĂ€chsten 10 Runden gewinnt.

Wie können wir also auf den Sieger setzen?

Stell dir vor, dass Boxer A und Boxer B beide Newcomer sind, die keiner kennt. Nach der ersten Runde musst du deine Wahl treffen. Im Endeffekt wirst du mit großer Wahrscheinlichkeit auf den Boxer setzen, der die erste Runde gewonnen hat. Die Entscheidung mag riskant sein, wenn der Vorsprung des Siegers gering ist. Du kannst deine Entscheidung letztlich jedoch nicht auf einer anderen Grundlage treffen.

Stell dir nun vor, dass Boxer A als Champion bekannt ist und Boxer B ein Herausforderer ist, den du nicht kennst. Dein Wissen ĂŒber Boxer A bezeichnen wir als Prior – Informationen, die du bereits hast und die deine Entscheidung beeinflussen.

Aufgrund dieses Priors oder Vorwissens ist es wahrscheinlicher, dass du in den nĂ€chsten Runden auf Boxer A setzt, selbst wenn Boxer B die erste Runde mit einem Ă€ußerst kleinen Vorsprung gewinnt.

Zudem wirst du den Boxer B nur dann als voraussichtlichen Sieger wĂ€hlen, wenn er die erste Runde mit einem großen Vorsprung gewinnt. Je grĂ¶ĂŸer der Prior ist, desto grĂ¶ĂŸer muss der Vorsprung sein, um dich zu ĂŒberzeugen, deine Wettentscheidung zu Ă€ndern.

Kannst du mir folgen? Wenn ja, sind die folgenden Abschnitte leicht zu begreifen und du wirst verstehen, woher diese „95 %-Schwelle“ kommt.

Kommen wir nun zu den Tipps fĂŒr die Optimierung deiner Website mit geringem Traffic.

 

1. Die Lösung des Problems: „Ich erreiche nie die 95 %ige Signifikanz“.

Das ist die hĂ€ufigste Klage, die man ĂŒber CRO fĂŒr Websites mit geringem Traffic und fĂŒr Seiten mit geringem Traffic auf grĂ¶ĂŸeren Websites hört.

Bevor wir uns diesem hĂ€ufigsten Problem widmen, sollten wir zunĂ€chst die Frage beantworten, woher diese „goldene Regel“ der 95 % stammt.

Ursprung der 95 %-Schwelle

Beginnen wir unsere ErklĂ€rung mit einer sehr einfachen Idee: Was wĂ€re, wenn Optimierungsstrategien vom ersten Tag an angewandt wĂŒrden? Wenn zwei Varianten ohne Vorgeschichte gleichzeitig erstellt wĂŒrden, gĂ€be es keine „Original“-Version, die von einem Newcomer herausgefordert werden könnte.

Dadurch wÀrst du gezwungen, von Anfang an die beste Version zu wÀhlen.

In diesem Fall könnte jeder kleine Leistungsunterschied fĂŒr die Entscheidungsfindung gemessen werden. Nach einem kurzen Test wirst du dich fĂŒr die Variante mit der höheren Leistung entscheiden. Es wĂ€re keine gute Strategie, die Variante mit der geringeren Leistung zu wĂ€hlen, und zudem wĂ€re es unklug, auf einen Schwellenwert von 95 % zu warten, um einen Gewinner zu ermitteln.

In der Praxis erfolgt die Optimierung jedoch erst lange nach dem Start eines Unternehmens.

In den meisten Situationen im echten Leben gibt es also eine Version A, die bereits existiert, und einen neuen Herausforderer, die Version B, die erstellt wird.

Wenn der neue Herausforderer, Version B, „auf die BĂŒhne tritt“ und der Leistungsunterschied zwischen den beiden Varianten nicht signifikant ist, ist es fĂŒr dich kein Problem, Version B nicht zum Gewinner zu erklĂ€ren.

Statistische Tests sind symmetrisch. Wenn wir also die Rollen vertauschen und A und B im statistischen Test vertauschen, wirst du feststellen, dass das Original nicht deutlich besser als der Herausforderer ist. Die „UnschlĂŒssigkeit“ des Tests ist symmetrisch.

Warum setzt du also am Ende eines nicht eindeutigen Tests 100 % des Traffics auf das Original und erklÀrst damit implizit A zum Sieger? Weil du drei Vorannahmen hast:

  1. Version A war die erste Wahl. Diese Wahl wurde vom ursprĂŒnglichen Ersteller der Seite getroffen.
  2. Version A wurde bereits implementiert und ist technisch vertrauenswĂŒrdig. Version B ist in der Regel ein Mockup.
  3. Version A verfĂŒgt ĂŒber viele Daten, die ihren Wert beweisen, wĂ€hrend Version B ein Herausforderer mit begrenzten Daten ist, die nur wĂ€hrend der Testphase erhoben werden.

Die Punkte 1 und 2 bilden die Grundlage einer CRO-Strategie, so dass du ĂŒber diese beiden Vorannahmen hinausgehen musst. Punkt 3 erlĂ€utert, dass Version A ĂŒber mehr Daten verfĂŒgt, die ihre Leistung belegen, was erklĂ€rt, warum du der Version A mehr vertraust als der Version B: Version A hat Daten.

Jetzt verstehst du, dass diese 95 %-Vertrauensregel eine Möglichkeit ist, ein großes Vorwissen zu erklĂ€ren. Und dieser Prior stammt meist aus historischen Daten.

Wenn du also eine Seite mit geringem Traffic optimierst, sollte der Schwellenwert deiner Entscheidung unter 95 % liegen, weil dein Prior bei A aufgrund des Traffics und des höheren Alters schwÀcher ist.

Der Schwellenwert sollte entsprechend dem Traffic festgelegt werden, der vom ersten Tag beim Original vorlag. Das Problem bei dieser Methode ist jedoch, dass wir wissen, dass die Conversion Rates nicht stabil sind und sich im Laufe der Zeit Ă€ndern können. Denke an die SaisonabhĂ€ngigkeit – z. B. der Ansturm am Black Friday, Urlaubstage, die erhöhte AktivitĂ€t in der Weihnachtszeit, usw. Wegen der saisonalen Schwankungen kannst du die Leistungen in verschiedenen ZeitrĂ€umen nicht vergleichen.

Aus diesem Grund berĂŒcksichtigen Praktiker nur Daten fĂŒr Version A und Version B, die im gleichen Zeitraum erhoben wurden, und legen einen hohen Schwellenwert (95 %) fest, um den Herausforderer als Gewinner zu akzeptieren, um einen hohen Prior gegenĂŒber Version A zu formalisieren.

Was ist ein angemessener Schwellenwert fĂŒr geringen Traffic?

Es ist schwierig, eine genaue Zahl im Auge zu haben, da diese von deiner Risikobereitschaft abhÀngt.

GemĂ€ĂŸ dem Hypothesenprotokoll solltest du im Voraus einen Zeitrahmen fĂŒr die Datenerhebung festlegen.

Das bedeutet, dass die „Stopp“-Kriterien eines Tests kein statistisches Maß sind oder auf einer bestimmten Zahl basieren. Die „Stopp“-Kriterien sollten einem endenden Zeitrahmen entsprechen. Sobald der Zeitraum beendet ist, solltest du die Statistiken betrachten, um eine angemessene Entscheidung zu treffen.

AB Tasty, unsere Software zur Optimierung der Customer Experience und zum Feature Management, verwendet das Bayessche Framework, das einen Index der „Gewinnchancen“ erzeugt, welcher eine direkte Interpretation ermöglicht – anstelle eines p-Werts mit einer sehr komplexen Bedeutung.

Mit anderen Worten, der „Index der Gewinnchancen“ ist die Wahrscheinlichkeit, dass eine bestimmte Variante besser als das Original ist.

Eine 95 %ige „Gewinnchance“ bedeutet also, dass die gegebene Variante mit 95 %iger Wahrscheinlichkeit der Gewinner sein wird. Dabei wird davon ausgegangen, dass wir kein Vorwissen oder besonderes Vertrauen in das Original haben.

Der Schwellenwert von 95 % ist auch ein Standardkompromiss zwischen dem Prior beim Original und einer bestimmten Risikoakzeptanz (es hÀtte auch ein Schwellenwert von 98 % sein können).

Obwohl es schwierig ist, eine genaue Zahl zu nennen, können wir eine grobe GrĂ¶ĂŸenordnung fĂŒr den Schwellenwert angeben:

  • Neue A- und B-Varianten: In einem Fall, in dem sowohl Variante A als auch Variante B neu sind, könnte der Schwellenwert bei nur 50 % liegen. Wenn es keine Daten ĂŒber die Leistung der Varianten in der Vergangenheit gibt und du eine Entscheidung ĂŒber die Implementierung treffen musst, ist selbst eine 51 %ige Chance auf Erfolg besser als eine 49 %ige.
  • Neue Website, geringer Traffic: Wenn deine Website neu ist und einen besonders geringen Traffic aufweist, hast du wahrscheinlich einen besonders geringen Prior bei Variante A (in diesem Fall die ursprĂŒngliche Variante). In diesem Fall ist ein Schwellenwert von 85 % angemessen. Denn wenn du das Wenige beiseite lĂ€sst, was du ĂŒber das Original weißt, hast du immer noch eine 85 %ige Chance fĂŒr die Auswahl des Gewinners und nur eine 15 %ige fĂŒr die Auswahl einer Variante, die dem Original gleichwertig ist. Das Risiko, dass sie schlechter abschneidet, ist geringer. Je nach Kontext kann eine solche Wette also durchaus Sinn ergeben.
  • Ausgereiftes Unternehmen, geringer Traffic: Wenn dein Unternehmen schon lĂ€nger besteht, aber immer noch wenig Besucher zĂ€hlt, sind 90 % ein vernĂŒnftiger Schwellenwert, da der Prior ĂŒber das Original noch relativ klein ist.
  • Ausgereiftes Unternehmen, hoher Traffic: Bei einem hohen Prior oder einer großen Menge an Daten bei Variante A wird ein Schwellenwert von 95 % empfohlen.

Der ursprĂŒngliche Schwellenwert von 95 % ist viel zu hoch, wenn dein Unternehmen einen geringen Traffic aufweist, da die Wahrscheinlichkeit gering ist, diesen Wert zu erreichen. Demzufolge wird deine CRO-Strategie wirkungslos sein und eine datengestĂŒtzte Entscheidungsfindung wird unmöglich.

Wenn du AB Tasty als Experimentierplattform verwendest, erhĂ€ltst du einen Bericht, der die „Gewinnchance“ zusammen mit anderen statistischen Informationen ĂŒber deine Experimente enthĂ€lt. Ein Bericht von AB Tasty enthĂ€lt auch das Konfidenzintervall fĂŒr den geschĂ€tzten Gewinn als wichtigen Indikator. Die Grenzen um den geschĂ€tzten Gewinn werden ebenfalls nach dem Bayesschen Prinzip berechnet, d. h. sie können als bestes und schlechtestes Szenario interpretiert werden.

Die Bedeutung der Bayesschen Statistik

Jetzt verstehest du die genaue Bedeutung des wohlbekannten 95 %-igen „Signifikanzniveaus“ und kannst geeignete Schwellenwerte fĂŒr deinen speziellen Fall wĂ€hlen.

Es ist wichtig, sich daran zu erinnern, dass dieser Ansatz nur mit der Bayesschen Statistik funktioniert, da frequentistische AnsĂ€tze statistische Indizes (wie p-Werte und Konfidenzintervalle) liefern, die eine völlig andere Bedeutung haben und fĂŒr die erklĂ€rte Logik nicht geeignet sind.

 

2. Sind die Statistiken bei kleinen Zahlen gĂŒltig?

Ja, solange man den Test nicht abhÀngig vom Ergebnis abbricht.

Denke daran, dass laut Testprotokoll der einzige Grund fĂŒr den Teststopp das Ende des Zeitrahmens ist. In diesem Fall sind die statistischen Indizes („Gewinnchancen“ und Konfidenzintervall) wahr und brauchbar.

Du denkst jetzt möglicherweise: „Okay, aber dann erreiche ich selten das Signifikanzniveau von 95 % …“

Vergiss nicht, dass der Schwellenwert von 95 % nicht in allen FĂ€llen die magische Zahl sein muss. Bei einem geringen Traffic ist deine Website wahrscheinlich noch nicht alt. Wenn du dich auf den vorherigen Punkt beziehst, kannst du einen Blick auf unsere vorgeschlagene Skala fĂŒr verschiedene Szenarien werfen.

Wenn du als neueres Unternehmen mit geringerem Traffic zu tun hast, kannst du sicherlich zu einem niedrigeren Schwellenwert (wie z. B. 90 %) wechseln. Der Schwellenwert ist immer noch höher, weil man in der Regel mehr Vertrauen in ein Original als in eine Variante hat, da sie schon lÀnger verwendet wird.

Wenn es sich um zwei völlig neue Varianten handelt, ist es am Ende des Testzeitraums einfacher, die Variante mit den höheren Conversion Rates auszuwĂ€hlen (ohne eine Statistik zu verwenden), da es kein Vorwissen ĂŒber die Leistung von A oder B gibt.

 

3. Gehe „weiter nach oben“

Manchmal ist das Traffic-Problem nicht auf eine Website mit geringem Traffic zurĂŒckzufĂŒhren, sondern auf die betreffende Webseite. Normalerweise befinden sich Seiten mit geringem Traffic am Ende des Funnels.

In diesem Fall ist es eine gute Strategie, an der Optimierung des Funnels nÀher am Einstiegspunkt der Nutzer zu arbeiten. Möglicherweise gibt es mit einer optimierten digitalen Customer Journey noch mehr aufzudecken, bevor das Ende des Funnels erreicht wird.

 

4. Ist die CUPED-Technik real?

Was ist CUPED?

CUPED bzw. „Controlled Experiment Using Pre-Experiment Data“ ist ein neues Schlagwort in der Welt der Experimente. CUPED ist eine Technik, die angeblich bis zu 50 % schnellere Ergebnisse liefert.  FĂŒr Websites mit geringem Traffic natĂŒrlich sehr verlockend.

Funktioniert CUPED wirklich so gut?

Nicht ganz, und zwar aus zwei GrĂŒnden: zum einen aus organisatorischen GrĂŒnden und zum anderen wegen der Anwendbarkeit.

Die organisatorische EinschrÀnkung

Was oft vergessen wird, ist, dass CUPED fĂŒr Controlled Experiment Using Pre-Experiment Data steht.

In der Praxis betrĂ€gt der ideale Zeitraum fĂŒr „Daten vor dem Experiment“ zwei Wochen, um eine Zeitersparnis von 50 % zu erreichen.

Bei einem klassischen 2-Wochen-Test behauptet CUPED also, dass du den Test in nur einer Woche beenden kannst.

Um jedoch die Ergebnisse richtig einschÀtzen zu können, benötigst du zwei Wochen Daten aus der Zeit vor dem Experiment. Du musst also drei Wochen Zeit haben, um CUPED zu implementieren und die gleiche Genauigkeit wie bei einem klassischen 2-Wochen-Test zu erzielen.

Ja, du hast richtig gelesen. Letztendlich brauchst du drei Wochen, um das Experiment durchzufĂŒhren.

Das bedeutet, dass es nur dann sinnvoll ist, wenn du bereits zwei Wochen Traffic-Daten gesammelt hast, die nicht fĂŒr Experimente genutzt werden. Selbst wenn du zwei experimentlose Wochen in die Planung deiner Experimente integrieren kannst, um Daten zu sammeln, wird dies den Traffic fĂŒr andere Experimente blockieren.

Die AnwendbarkeitsbeschrÀnkung

ZusÀtzlich zu der organisatorischen/2-wöchigen ZeitbeschrÀnkung gibt es zwei weitere Voraussetzungen, damit CUPED effektiv ist:

  1. CUPED ist nur auf Besucher anwendbar, die durch die Website sowohl in der Zeit vor dem Experiment als auch wÀhrenddessen navigieren.
  2. Diese Besucher mĂŒssen dasselbe Verhalten hinsichtlich der zu optimierenden KPI zeigen. Die Daten der Besucher mĂŒssen zwischen den beiden ZeitrĂ€umen korrelieren.

Du wirst im folgenden Abschnitt sehen, dass CUPED durch diese beiden EinschrĂ€nkungen fĂŒr E-Commerce-Websites praktisch nicht möglich und nur fĂŒr Plattformen anwendbar ist.

Kehren wir zu unserem Beispiel der Experimentiereinstellungen zurĂŒck:

  • Zwei Wochen Daten aus der Zeit vor dem Experiment
  • Zwei Wochen Experimentdaten (von denen wir hoffen, dass sie nur eine Woche dauern, da eine Zeitersparnis von 50 % erwartet wird)
  • Das Optimierungsziel ist eine Transaktion: Erhöhung der Anzahl von Conversions.

EinschrĂ€nkung Nr. 1 besagt, dass wir die gleichen Besucher vor dem Experiment und wĂ€hrenddessen haben mĂŒssen, aber die Customer Journey eines Users im E-Commerce dauert in der Regel nur etwa eine Woche.

Mit anderen Worten, die Wahrscheinlichkeit, dass dieselben Besucher in beiden ZeitrÀumen die Website besuchen, ist sehr gering. In diesem Zusammenhang ist nur ein sehr begrenzter Effekt von CUPED zu erwarten (bis hin zum Anteil der Besucher in beiden ZeitrÀumen).

EinschrĂ€nkung Nummer 2 besagt, dass die Besucher das gleiche Verhalten hinsichtlich der Conversion (den zu optimierenden KPI) aufweisen mĂŒssen. Offen gestanden, diese Bedingung wird im E-Commerce einfach nie erfĂŒllt.

Die Conversion im E-Commerce findet entweder wÀhrend des Pre-Experiments oder wÀhrend des Experiments statt, aber nicht bei beiden (es sei denn, deine Kunden kaufen hÀufig mehrmals wÀhrend des Experimentierzeitraums ein).

Das bedeutet, dass es keine Chance gibt, dass die Conversions der Besucher zwischen den ZeitrÀumen korrelieren.

Zusammenfassend gesagt: CUPED ist zur Optimierung von Transaktionen auf Websites im E-Commerce einfach nicht geeignet.

In der wissenschaftlichen Originalarbeit wird dies klar hervorgehoben, aber der Beliebtheit halber wird diese Technik in der Testbranche falsch dargestellt.

TatsĂ€chlich – und das ist in der wissenschaftlichen Literatur klar dargelegt – funktioniert CUPED nur bei mehrfachen Conversions fĂŒr Plattformen mit wiederkehrenden Besuchern, die dieselben Aktionen durchfĂŒhren.

Ausgezeichnete Plattformen fĂŒr CUPED wĂ€ren Suchmaschinen (wie Bing, auf der diese Technik erfunden wurde) oder Streaming-Plattformen, die User tĂ€glich besuchen und dieselben wiederkehrenden Aktionen ausfĂŒhren (ein Video abspielen, auf einen Link in einer Suchergebnisseite klicken, usw.).

Selbst wenn du versuchst, eine Anwendung von CUPED fĂŒr den E-Commerce zu finden, wirst du feststellen, dass dies nicht möglich ist.

  • Man könnte versuchen, die Anzahl der gesehenen Produkte zu optimieren, aber das Problem von EinschrĂ€nkung 1 bleibt bestehen: eine sehr geringe Anzahl von Besuchern wird in beiden DatensĂ€tzen vorhanden sein. Und es gibt noch einen noch fundamentaleren Einwand – dieser KPI sollte nicht allein optimiert werden, da du sonst möglicherweise dazu beitrĂ€gst, dass Besucher zwischen den Produkten zögern.
  • Du kannst nicht einmal versuchen, die Anzahl der von den Besuchern bestellten Produkte mit CUPED zu optimieren, da die EinschrĂ€nkung Nummer 2 immer noch gilt. Der Kauf kann als unverzĂŒglich betrachtet werden. Daher kann er nur in dem einen oder in dem anderen Zeitraum stattfinden – nicht in beiden. Wenn keine Korrelation des Besucherverhaltens zu erwarten ist, ist auch kein CUPED-Effekt zu erwarten.

Schlussfolgerung ĂŒber CUPED

CUPED eignet sich nicht fĂŒr Websites im E-Commerce, bei denen eine Transaktion das Hauptziel der Optimierung ist. CUPED ist nicht dein Geheimrezept, das dir hilft, dein Unternehmen zu optimieren – es sei denn, du bist Bing, Google oder Netflix.

Diese Technik ist sicherlich ein Schlagwort, das schnell Interesse weckt, aber es ist wichtig, das Gesamtbild zu sehen, bevor man CUPED in seine Roadmap aufnimmt. Marken im E-Commerce sollten daran denken, dass diese Testtechnik nicht fĂŒr ihr Unternehmen geeignet ist.

 

Optimierung fĂŒr Websites mit geringem Traffic

Marken mit geringem Traffic sind immer noch erstklassige Kandidaten fĂŒr die Website-Optimierung, auch wenn sie sich möglicherweise an einen anderen Ansatz anpassen mĂŒssen, der nicht so traditionell ist.

Ob die Optimierung deiner Webseiten bedeutet, eine Seite zu wĂ€hlen, die im Funnel weiter oben anzutreffen ist, oder ob du eine etwas niedrigere Schwelle wĂ€hlst – entscheidend ist, dass die Optimierung kontinuierlich verlĂ€uft.

Möchtest du mit der Optimierung deiner Website beginnen? AB Tasty ist die branchenfĂŒhrende Plattform zur Optimierung der User Experience, mit der du schnell fĂŒr ein umfassenderes digitales Erlebnis sorgen kannst. Von Experimenten bis hin zur Personalisierung kann diese Lösung dir helfen, deine Zielgruppe zu aktivieren und sich zu engagieren, um deine Conversions zu steigern.

 

AB Tasty Demo Banner

Blogartikel

18min. Lesezeit

Bayes vs. Frequentist: Wie AB Tasty sich fĂŒr ein statistisches Modell entschieden hat

Die Debatte ĂŒber die beste Methode zur Interpretation von Testergebnissen gewinnt in der Welt der Conversion Rate Optimierung zunehmend an Bedeutung.

Zwei inferenzstatistische Methoden (Bayessche vs. Frequentistische) lösen heftige Diskussionen darĂŒber aus, welche die „beste“ sei. Bei AB Tasty haben wir beide AnsĂ€tze sorgfĂ€ltig untersucht und fĂŒr uns gibt es nur einen Gewinner.

Bayes vs. Frequentist
Es gibt viele Diskussionen ĂŒber die optimale statistische Methode: Bayessche vs. Frequentistische Methode (Source)

 

Lassen Sie uns zunÀchst auf die Logik hinter den beiden Methoden eingehen und die wesentlichen Unterschiede sowie Vorteile beider Methoden untersuchen. In diesem Artikel greifen wir folgende Punkte auf:

[toc]

 

Was sind Hypothesentests?

Der Rahmen fĂŒr statistische Hypothesentests bei digitalen Experimenten kann durch zwei gegenteilige Hypothesen ausgedrĂŒckt werden:

  • H0 besagt, dass es keinen Unterschied zwischen dem Treatment (die bearbeitete Variante) und der Originalversion gibt. Mit anderen Worten: das Treatment hat keinen Einfluss auf den gemessenen KPI.
  • H1 besagt, dass es einen Unterschied zwischen dem Treatment und der Originalversion gibt. Somit hat das Treatment also Einfluss auf den gemessenen KPI.

 

Ziel ist es, Indikatoren zu berechnen, die Ihnen anhand der experimentellen Daten bei der Entscheidung helfen, ob Sie das Treatment (im Kontext von AB Tasty eine Variante) beibehalten oder verwerfen sollen. ZunĂ€chst bestimmen wir die Anzahl der zu testenden BesucherInnen, sammeln die Daten und prĂŒfen dann, ob die Variante besser als das Original abschneidet.

Gewinnervariante Bayes
Es gibt zwei Hypothesen im statistischen Hypothesen-Vorgehen (Quelle)

 

Im Wesentlichen gibt es zwei AnsĂ€tze fĂŒr statistische Hypothesentests:

  1. Frequentistischer Ansatz: Vergleich der Daten mit einem Modell.
  2. Bayesscher Ansatz: Vergleich zweier Modelle (die aus Daten erstellt wurden).

 

Zur DurchfĂŒhrung des aktuellen Reportings und der Experimente, entschied sich AB Tasty vom ersten Moment an fĂŒr den Bayesschen Ansatz.

 

Was ist der frequentistische Ansatz?

Bei diesem Ansatz erstellen wir ein Modell Ma fĂŒr die Originalversion (A), die die Wahrscheinlichkeit P angibt, bestimmte Daten Da zu sehen. Es handelt sich dabei um folgende Funktion:

Ma(Da) = p

Dann können wir aus Ma(Db) einen p-Wert (Pv) errechnen. Dieser gibt die Wahrscheinlichkeit an, die bei Variante B gemessenen Daten zu sehen, wenn sie durch die Originalversion (A) erzeugt wurden.

Rein vom GefĂŒhl her bedeutet ein hoher Pv, dass die bei B gemessenen Daten auch von A hĂ€tten produziert werden können (was die Hypothese H0 unterstĂŒtzt). Ist Pv hingegen niedrig, bedeutet dies, dass die Wahrscheinlichkeit sehr gering ist, dass die bei B gemessenen Daten auch durch A hĂ€tten erzeugt werden können (was die Hypothese H1 unterstĂŒtzt).

Ein weit verbreiteter Schwellenwert fĂŒr Pv ist 0,05. Das heißt, damit die Variante einen Effekt hat, muss die Wahrscheinlichkeit unter 5 % liegen, dass die bei B gemessenen Daten auch von A stammen könnten.

Dieser Ansatz bietet den wesentlichen Vorteil, dass nur A modelliert werden muss. Dies ist interessant, da es sich um die ursprĂŒngliche Variante handelt und diese schon lĂ€nger als B existiert. Man könnte also durchaus glauben, dass man ĂŒber einen langen Zeitraum Daten aus A sammeln kann, um aus diesen Daten ein genaues Modell zu erstellen. Leider bleibt der KPI, den wir beobachten, nur selten unverĂ€ndert. Transaktionen oder Klickraten sind im Laufe der Zeit sehr variabel, weshalb man das Modell Ma erstellen und die Daten aus B im selben Zeitraum erheben muss, um einen gĂŒltigen Vergleich zu erhalten. Dieser Vorteil lĂ€sst sich offensichtlich nicht im Kontext digitaler Experimente anwenden.

Dieser Ansatz wird als „Frequentist“ bezeichnet, da er die Frequenz misst, in der bestimmte Daten wahrscheinlich bei einem bekannten Modell auftreten.

Wichtig ist darauf hinzuweisen, dass dieser Ansatz – wie wir oben gesehen haben – die beiden Prozesse nicht vergleicht.

Hinweis: Da p-Werte nicht intuitiv sind, werden sie oft wie folgt in eine Wahrscheinlichkeit umgewandelt:

p = 1-P-Wert

HÀufig werden sie fÀlschlicherweise als die Wahrscheinlichkeit dargestellt, dass H1 wahr ist (was bedeutet, dass es einen Unterschied zwischen A und B gibt). TatsÀchlich handelt es sich aber, um die Wahrscheinlichkeit, dass die bei B gesammelten Daten nicht von A erzeugt wurden.

 

Was ist der Bayessche Ansatz (den AB Tasty verwendet)?

Bei diesem Ansatz erstellen wir zwei Modelle, Ma und Mb (eines fĂŒr jede Variante) und vergleichen sie dann. Diese Modelle, die auf der Grundlage von experimentellen Daten erstellt werden, erzeugen nach dem Zufallsprinzip die Stichproben: A und B. Wir verwenden diese Modelle, um Stichproben möglicher Raten zu erstellen und die Differenz zwischen diesen Raten zu berechnen. Mit dem Ziel, die Verteilung der Differenz zwischen den beiden Prozessen einzuschĂ€tzen.

Im Gegensatz zum ersten Ansatz, vergleicht dieser zwei Modelle miteinander. Hier spricht man vom Bayesschen Ansatz oder der Bayesschen Methode.

Nun mĂŒssen wir ein Modell fĂŒr A und B erstellen.

Klicks können als Binomialverteilungen, mit den Parametern Anzahl der Versuche und Erfolgsquote, dargestellt werden. Bei digitalen Experimenten entspricht die Anzahl der Versuche der Anzahl der BesucherInnen und die Erfolgsquote der Klick- oder Transaktionsrate. In diesem Fall ist es wichtig zu wissen, dass es sich bei den uns betreffenden Raten nur um SchĂ€tzungen fĂŒr eine begrenzte Anzahl von BesucherInnen handelt. Um diese begrenzte Genauigkeit zu modellieren, verwenden wir Beta-Verteilungen (entspricht der konjugierten a-priori-Verteilung von Binomialverteilungen).

Diese Verteilungen modellieren die Wahrscheinlichkeit einer Erfolgsquote, die bei einer begrenzten Anzahl von Versuchen gemessen wird.

Beispiel:

  • 1.000 BesucherInnen bei A mit 100 Erfolgen
  • 1.000 BesucherInnen bei B mit 130 Erfolgen

 

Wir erstellen das Modell Ma = beta(1+Erfolg_a,1+Misserfolge_a), wobei Erfolg_a = 100 & Misserfolge_a = BesucherInnen_a – Erfolg_a =900 ist.

Sicher haben Sie ein +1  fĂŒr die Parameter Erfolg und Misserfolg bemerkt, was sich in der Bayesschen Analyse durch den „Prior“ erklĂ€ren lĂ€sst. Ein Prior ist etwas, was Sie bereits vor dem Experiment kennen. Z.B. etwas, was aus einem anderen (frĂŒheren) Experiment abgeleitet wurde. Bei digitalen Experimenten ist jedoch gut dokumentiert, dass die Klickraten nicht gleichbleibend sind und sich je nach Tages- oder Jahreszeit Ă€ndern können. Folglich können wir dies in der Praxis nicht verwenden. Die entsprechende Prior-Einstellung +1 ist einfach ein nicht informativer Prior, da Sie auf keine vorherigen brauchbaren Experimentierdaten zurĂŒckgreifen können.

Bei den drei folgenden Diagrammen entspricht die horizontale Achse der Klickrate und die vertikale Achse der Wahrscheinlichkeit dieser Rate. Dabei ist bekannt, dass bei einem vorherigen Experiment 100 Erfolge bei 1.000 Versuchen verzeichnet wurden.

Modell A Klickrate Bayes
(Quelle: AB Tasty)

 

Normalerweise sind hier 10 % am wahrscheinlichsten, 5 % oder 15 % sehr unwahrscheinlich und 11 % halb so wahrscheinlich wie 10 %.

Das Modell Mb wird mit den Daten aus Versuch B auf die gleiche Weise erstellt:

Mb= beta(1+100,1+870)

Modell B Bayes
(Quelle: AB Tasty)

 

FĂŒr B liegt die wahrscheinlichste Rate bei 13 % wĂ€hrend die Breite der Kurve Ă€hnlich der vorherigen Kurve ist.

Nun vergleichen wir die Ratenverteilung von A und B.

Ratenverteilung Modell Bayes
Blau steht fĂŒr A und Orange fĂŒr B (Quelle: AB Tasty)

 

Wir sehen einen sich ĂŒberlappenden Bereich bei einer Conversion Rate von 12 %. Hier haben beide Modelle die selbe Wahrscheinlichkeit. FĂŒr eine SchĂ€tzung des sich ĂŒberlappenden Bereichs mĂŒssen wir aus beiden Modellen Stichproben ziehen und sie vergleichen.

Wir ziehen Stichproben aus den Verteilungen A und B:

  • s_a[i] ist die Stichprobe i th aus A
  • s_b[i] ist die Stichprobe i th aus B

 

Dann wenden wir eine Vergleichsfunktion auf diese Stichproben an:

  • der relative Gewinn: g[i] =100* (s_b[i] – s_a[i])/s_a[i] fĂŒr alle i.

 

Es handelt sich um die Differenz zwischen den möglichen Raten fĂŒr A und B in Bezug auf A (multipliziert mit 100 fĂŒr die Lesbarkeit in %).

Nun können wir die Stichproben g[i] mit einem Histogramm analysieren:

Gewinnervariante Histogramm Bayesscher Ansatz
Die horizontale Achse ist der relative Gewinn, die vertikale Achse die Wahrscheinlichkeit dieses Gewinns (Quelle: AB Tasty)

 

Wir sehen, dass der wahrscheinlichste Wert fĂŒr den Gewinn bei rund 30 % liegt.

Die gelbe Linie zeigt, wo der Gewinn bei 0 liegt, d. h. es gibt keinen Unterschied zwischen A und B. Stichproben links von dieser Linie entsprechen FĂ€llen, in denen A > B ist. Stichproben auf der anderen Seite sind FĂ€lle, in denen A < B ist.

Anschließend definieren wir die Gewinnwahrscheinlichkeit wie folgt:

GW = (Anzahl der Stichproben > 0)/Gesamtanzahl der Stichproben

 

Bei 1.000.000 (10^6) Stichproben fĂŒr g haben wir 982.296 Stichproben >0, sodass B>A ~ zu 98 % wahrscheinlich ist.

Wir nennen dies die „Gewinnchancen“ oder die „Gewinnwahrscheinlichkeit“ (die Wahrscheinlichkeit, dass man etwas gewinnt).

Die Gewinnwahrscheinlichkeit wird im Report hier dargestellt (siehe rotes Rechteck):

AB Tasty Bayesscher Ansatz
(Source: AB Tasty)

 

Mit der gleichen Stichprobenmethode können wir klassische Analysekennzahlen wie Mittelwert, Median, Perzentile usw. berechnen.

Bei Betrachtung des vorherigen Diagramms geben die roten vertikalen Linien an, wo sich der grĂ¶ĂŸte Teil des blauen Bereichs befindet, d. h. intuitiv, welche Gewinnwerte am wahrscheinlichsten sind.

Wir haben entschieden, ein Best Case- und ein Worst Case-Szenario mit einem Konfidenzintervall von 95 % zu prĂ€sentieren. Dabei wurden 2,5 % der FĂ€lle im Extrembereich (beste und schlechteste FĂ€lle) ausgeschlossen, sodass insgesamt 5 % der von uns als selten betrachteten Ereignisse unberĂŒcksichtigt bleiben. Dieses Intervall wird durch die roten Linien im Diagramm abgegrenzt. Wir gehen davon aus, dass der tatsĂ€chliche Gewinn (so, als wenn wir fĂŒr die Messung eine unendliche Anzahl an BesucherInnen hĂ€tten) in 95 % der FĂ€lle irgendwo in diesem Intervall liegt.

In unserem Beispiel liegt dieses Intervall bei [1,80 %, 29,79 %, 66,15 %], was bedeutet, dass es relativ unwahrscheinlich ist, dass der tatsĂ€chliche Gewinn unter 1,8 % liegt. Ebenso ist es relativ unwahrscheinlich, dass der Gewinn 66,15 % ĂŒberschreitet. Und die Wahrscheinlichkeit ist gleichermaßen groß, dass die reelle Rate ĂŒber oder unter dem Medianwert von 29,79 % liegt.

Das Konfidenzintervall wird im Report (eines anderen Experiments) hier dargestellt (siehe rotes Rechteck):

AB Tasty Bayesscher Ansatz
(Quelle: AB Tasty)

 

Was sind „Prior“ beim Bayesschen Ansatz?

In Bayesschen Frameworks wird der Begriff „Prior“ fĂŒr die Informationen verwendet, ĂŒber die Sie vor dem Experiment verfĂŒgen. Ein Beispiel: Allgemein ist bekannt, dass die Transaktionsrate im e-Commerce in den meisten FĂ€llen unter 10 % liegt.

Es wĂ€re sehr interessant gewesen, diesen Punkt einzubinden, aber diese Vermutungen sind in der Praxis schwer anzustellen, da die SaisonalitĂ€t der Daten einen großen Einfluss auf die Klickraten hat. TatsĂ€chlich liegt hier der Hauptgrund, weshalb wir die Daten fĂŒr A und B gleichzeitig erheben. Meistens liegen uns bereits vor dem Experiment Daten von A vor. Wir wissen jedoch, dass sich die Klickraten im Laufe der Zeit Ă€ndern, sodass wir die Klickraten im Hinblick auf einen gĂŒltigen Vergleich fĂŒr alle Varianten gleichzeitig erheben mĂŒssen.

Daraus folgt, dass wir einen nicht-informativen Prior verwenden mĂŒssen. Das bedeutet, dass wir vor dem Experiment nur wissen, dass die Raten zwischen [0 %, 100 %] liegen. Wir wissen nicht, wie hoch der Gewinn ausfallen kann. Dieselbe Vermutung wie beim Frequentistischen Ansatz, auch wenn sie nicht formuliert wurde.

 

Herausforderungen bei statistischen Tests

Wie bei jedem Testansatz wird auch hier das Ziel gesetzt, Fehler auszuschalten. Es gibt zwei Arten von Fehlern, die Sie vermeiden sollten:

  • Falsch positiv (FP): Wenn Sie eine Gewinnervariante auswĂ€hlen, die in Wirklichkeit nicht die Variante mit der besten Performance ist.
  • Falsch negativ (FN): Wenn Sie eine Gewinnervariante verpassen. Entweder deklarieren Sie am Ende des Experiments keinen Gewinner oder den falschen Gewinner.

Die Performance bei beiden Messungen hÀngt vom verwendeten Schwellenwert (p-Wert oder Gewinnwahrscheinlichkeit) ab, der wiederum vom Kontext des Experiments abhÀngt. Die Entscheidung muss der oder die NutzerIn treffen.

Ein weiterer wichtiger Parameter ist die Anzahl der fĂŒr das Experiment herangezogenen BesucherInnen, da sie einen starken Einfluss auf die falsch negativen Fehler hat.

Aus geschĂ€ftlicher Sicht ist ein falsch negatives Ergebnis eine verpasste Chance. Bei der Reduzierung falsch negativer Fehler geht es hauptsĂ€chlich um die GrĂ¶ĂŸe der Population, die dem Test zugewiesen ist: im Grunde genommen geht es darum, dem Problem mehr Besucher zuzufĂŒhren.

Das Hauptproblem sind allerdings falsch positive Ergebnisse, die hauptsÀchlich in zwei Situationen auftreten:

  • Bereits sehr frĂŒh im Experiment: Bevor die angestrebte StichprobengrĂ¶ĂŸe erreicht ist, wenn die Gewinnwahrscheinlichkeit höher als 95 % ist. Es passiert, dass NutzerInnen zu ungeduldig sind und zu schnell SchlĂŒsse ziehen, ohne dass genĂŒgend Daten vorliegen; das Gleiche gilt fĂŒr falsch positive Ergebnisse.
  • Sehr spĂ€t im Experiment: Wenn die angestrebte StichprobengrĂ¶ĂŸe erreicht ist, aber kein signifikanter Gewinner gefunden wird. Manche UserInnen glauben zu sehr an ihre Hypothese und wollen ihr eine weitere Chance geben. 

 

Beide Probleme können durch strikte Einhaltung des Testprotokolls vermieden werden, indem Sie einen Testzeitraum mit einem Stichprobenrechner festlegen und sich daran halten.

Bei AB Tasty gibt es eine visuelle Markierung mit dem Namen „Readiness“. Sie zeigt an, ob Sie sich an das Protokoll halten (ein Zeitraum von mindestens 2 Wochen und mindestens 5.000 BesucherInnen). Bei jeder Entscheidung ĂŒber diese Richtlinien hinaus sollten die im nĂ€chsten Abschnitt beschriebenen Regeln beachtet werden, um das Risiko falsch positiver Ergebnisse zu reduzieren.

Dieser Screenshot zeigt, wie UserInnen darĂŒber informiert werden, ob Maßnahmen ergriffen werden können.

AB Tasty Bayessche Methode
(Quelle: AB Tasty)

 

WĂ€hrend des Zeitraums der Datenerhebung sollte man im Report lediglich prĂŒfen, ob die Erhebung korrekt ist (ohne HĂ€kchen bei „ZuverlĂ€ssigkeit“) und nur nach extremen FĂ€lle suchen, bei denen sofort gehandelt werden muss. GeschĂ€ftliche Entscheidungen aber sollten noch nicht getroffen werden. 

 

Wann sollten Sie Ihr Experiment abschließen?

Early Stop

Bei einem „Early Stop“ möchte ein Nutzer oder eine Nutzerin einen Test stoppen, bevor die zugewiesene Anzahl der BesucherInnen erreicht ist.

Der oder die NutzerIn sollte warten, bis die Kampagne mindestens 1.000 BesucherInnen erreicht hat, und erst bei besonders hohen Verlusten abbrechen.

Wenn ein Nutzer oder eine Nutzerin fĂŒr eine vermeintliche Gewinnervariante vorzeitig aufhören möchte, sollte mindestens zwei Wochen gewartet und nur Daten einer vollstĂ€ndigen Woche genutzt werden. Diese Taktik ist dann interessant, wenn die GeschĂ€ftskosten eines falsch positiven Ergebnisses noch in Ordnung sind. Dann ist es wohl wahrscheinlicher dass die Performance der vermeintlichen Gewinnervariante Ă€hnlich zu der des Original ist, als dass ein Verlust entsteht.

Nochmals: Wenn dieses Risiko aus geschÀftsstrategischer Sicht akzeptabel ist, ist diese Taktik sinnvoll.

Wenn ein(e) UserIn zu Beginn eines Tests eine Gewinnervariante (mit einer hohen Gewinnwahrscheinlichkeit) sieht, sollte fĂŒr das Worst Case-Szenario eine Marge sichergestellt werden. Eine untere Grenze fĂŒr den Gewinn nahe 0 % kann sich durchaus Ă€ndern und am Ende des Tests unter oder weit unter null liegen, was die anfangs angenommene hohe Gewinnwahrscheinlichkeit untergrĂ€bt. Die Vermeidung eines vorzeitigen Abbruchs mit einer niedrigen linken Konfidenzgrenze trĂ€gt dazu bei, falsch positive Ergebnisse zu Beginn eines Tests auszuschließen.

Beispielsweise ist eine Situation mit einer Gewinnwahrscheinlichkeit von 95 % und einem Konfidenzintervall wie [-5,16 %, 36,48 %, 98,02 %] ein Merkmal fĂŒr einen vorzeitigen Abbruch. Die Gewinnwahrscheinlichkeit liegt ĂŒber dem akzeptierten Standard, weshalb man vielleicht also 100 % des Traffics auf die Gewinnvariante leiten möchte. Das Worst Case-Szenario (-5,16 %) liegt jedoch relativ weit unter 0 %, was auf ein mögliches falsch positives Ergebnis hindeutet und somit auf jeden Fall riskant ist. Denn im Worst Case-Szenario gehen 5 % der Conversions verloren. Besser ist es so lange zu warten, bis die untere Grenze des Konfidenzintervalls bei mindestens >0 % liegt. Eine kleine Marge darĂŒber wĂ€re noch sicherer.

 

SpÀter Abbruch

Bei einem „spĂ€ten Abbruch“ lĂ€sst man am Ende eines Tests den Test lĂ€nger als ursprĂŒnglich geplant laufen, da keine signifikante Gewinnervariante gefunden wurde. Der Nutzer oder die Nutzerin vertritt dabei die Hypothese, dass der Gewinn kleiner als erwartet ausfĂ€llt und fĂŒr eine signifikante Aussage mehr BesucherInnen benötigt werden.

Wenn man entscheidet, ob die Laufzeit des Tests verlĂ€ngert werden soll, ohne dem Protokoll zu folgen, sollte eher das Konfidenzintervall statt die Gewinnwahrscheinlichkeit berĂŒcksichtigt werden.

Wer Tests lĂ€nger als geplant durchfĂŒhren möchte, dem raten wir, nur sehr vielversprechende Tests zu verlĂ€ngern. Dies bedeutet, einen hohen Wert fĂŒr das beste Szenario zu haben (die rechte Grenze des Konfidenzintervalls sollte hoch sein).

Zum Beispiel ist dieses Szenario mit einer Gewinnwahrscheinlichkeit von 99 % und einem Konfidenzintervall von [0,42 %, 3,91 %] typisch fĂŒr einen Test, der nicht ĂŒber seine geplante Dauer hinaus verlĂ€ngert werden sollte: Eine große Gewinnwahrscheinlichkeit, aber kein hohes Best Case-Szenario (nur 3,91 %).

Beachten Sie, dass sich das Konfidenzintervall mit zunehmender Stichprobenzahl verkleinert. Das heißt, wenn es am Ende tatsĂ€chlich eine Gewinnervariante gibt, wird ihr Best Case-Szenario wahrscheinlich kleiner als 3,91 % sein. Lohnt sich das wirklich? Wir raten, zum Stichprobenrechner zurĂŒckzukehren und zu sehen, wie viele BesucherInnen fĂŒr eine solche Genauigkeit erforderlich sind.

Hinweis: Diese Zahlenbeispiele stammen aus einer Simulation von A/A-Tests, wobei ein gescheiterter Test ausgewÀhlt wurden.

 

Die Lösung: Konfidenzintervalle

Die Verwendung des Konfidenzintervalls anstelle der alleinigen Betrachtung der Gewinnwahrscheinlichkeit wird die Entscheidungsfindung erheblich verbessern. Ganz zu schweigen davon, dass dies unabhĂ€ngig vom Problem falsch positiver Ergebnisse geschĂ€ftlich wichtig ist. Alle Varianten mĂŒssen die Kosten fĂŒr die Umsetzung in der Produktion decken. Man darf nicht vergessen, dass die Originalversion bereits besteht und keine zusĂ€tzlichen Kosten verursacht. Daher tendiert man implizit und pragmatisch immer zum Original.

Jede Optimierungsstrategie sollte einen minimalen Schwellenwert fĂŒr die GrĂ¶ĂŸe des Gewinns haben.

Eine andere Art von Problem kann auftreten, wenn mehr als zwei Varianten getestet werden. In diesem Fall wird eine Holm-Bonferroni-Korrektur angewendet.

 

Warum AB Tasty den Bayesschen Ansatz gewÀhlt hat

Zusammengefasst, was ist nun besser? Die Bayessche oder die frequentistische Methode?

Wie bereits gesagt: beide statistischen Methoden sind tragfĂ€hig. AB Tasty hat sich aus den folgenden GrĂŒnden fĂŒr das Bayessche Statistikmodell entschieden:

  • Verwendung eines Wahrscheinlichkeitsindexes, der eher dem entspricht, was die Nutzer und Nutzerinnen denken, statt eines p-Werts oder eines verschleierten Werts
  • Bereitstellung von Konfidenzintervallen fĂŒr fundiertere GeschĂ€ftsentscheidungen (nicht alle Gewinnervarianten sind wirklich interessant, um sie in die Produktion zu bringen). Ebenfalls ein Mittel, um falsch positive Fehler zu reduzieren.

 

Im Endeffekt ergibt es einen Sinn, dass die frequentistische Methode ursprĂŒnglich von so vielen Unternehmen ĂŒbernommen wurde. Am Ende handelt es sich um eine Standardlösung, die leicht zu codieren und in jeder Statistikbibliothek zu finden ist (ein besonders wichtiger Vorteil, da die meisten EntwicklerInnen keine Statistiker sind).

Dennoch, auch wenn diese Methode anfangs fĂŒr Experimente großartig war, gibt es heute bessere Möglichkeiten: die Bayessche Methode. Alles hĂ€ngt davon ab, was Ihnen diese Möglichkeiten bieten: WĂ€hrend die frequentistische Methode zeigt, ob es einen Unterschied zwischen A und B gibt, geht die Bayessche Methode einen Schritt weiter und berechnet, wie groß der Unterschied ist.

Kurzum, bei DurchfĂŒhrung eines Experiments haben Sie bereits die Werte fĂŒr A und B. Nun möchten Sie herausfinden, welchen Gewinn Sie erzielen, wenn Sie von A zu B wechseln. Diese Frage lĂ€sst sich am besten mit einem Bayesschen Test beantworten.