Wenn du A/B-Tests durchführst, um deine Convesion Rate zu verbessern, ist es sehr empfehlenswert, vor dem Test eine Stichprobengröße zu berechnen und dein Konfidenzintervall zu messen.
Dieser Ratschlag stammt aus altmodischen Industrien (Landwirtschaft, Pharmazie…), in denen es wichtig ist, das Vertrauensniveau zu kennen. Dieser Faktor hat einen erheblichen Einfluss auf die Experimentierkosten, die wir so niedrig wie möglich halten wollen.
Genau hierfür werden Stichprobenrechner verwendet. Du wirst nach der aktuellen Erfolgsquote (Conversion Rate) und der Größe des zu messenden Mindesteffekts gefragt. Das Ergebnis der Berechnung ist die Grundgesamtheit, die benötigt wird, um Schlüsse aus einem solchen Experiment zu ziehen.
Dies lässt sich im „digitalen Bereich“ aus drei Hauptgründen schlecht umsetzen:
- Die Messung der Conversions kostet nichts (anders als in der Industrie).
- Die Anzahl der Besucher ist ein Teil des Problems (nicht die Lösung).
- Die Auswirkungen von Varianten sind schwer vorherzusagen (in der Praxis ist das genau die Frage, die du dir stellst!).
Das macht es sehr schwierig, Stichprobenrechner zu verwenden. Deshalb haben unsere AB Tasty Data Scientist einen Rechner für den „Minimum Detectable Effect“ (MDE) entwickelt.
Gib einfach die Anzahl der Besucher auf deiner Website und die Conversion Rate der Seite ein, die du testen möchtest!
Minimum-Detectable-Effect-Rechner
A/B-Test-Rechner
Berechne die minimale Stichprobengröße sowie die ideale Dauer deiner A/B-Tests auf der Grundlage deiner Zielgruppe, der Conversions und anderer Faktoren wie dem Minimum Detectable Effect.
Wie viele Nutzer brauchst du?
Wie lange sollte dein A/B-Test laufen?
Unser A/B-Test-Rechner gibt dir auch eine Vorstellung von der Laufzeit deines A/B-Tests. Damit Unser A/B-Test-Rechner gibt dir auch eine Vorstellung von der Laufzeit deines A/B-Tests. Damit dieser Testdauer-Rechner funktioniert, gib bitte die oben genannten Informationen ein, sowie deinen durchschnittlichen täglichen Traffic auf der getesteten Seite und die Anzahl der Varianten – einschließlich der Kontrollversion. Erfahre mehr über Konfidenzintervalle und Methoden zur Interpretation von Testergebnissen.
Finde hier deine Antwort
Your paragraph text here
Was ist ein Stichprobenrechner?
Mit unserem Stichprobenrechner kannst du auf einfache Weise die Stichprobengröße berechnen, die erforderlich ist, damit ein Test statistisch signifikant ist (z. B. die Anzahl von Besuchern, die du benötigst, um einem Anstieg/Verlust von x % mit einem Konfidenzniveau von 95 % als zuverlässig einzuschätzen).
Wie lautet die Nullhypothese?
Die Nullhypothese ist die Theorie in “ frequentierten “ statistischen Tests, die besagt, dass es keinen Unterschied zwischen Varianten gibt (also die Benennung „null“).
Wenn das Ergebnis eines Tests negativ ist, bedeutet das, dass es tatsächlich einen Unterschied gibt: Wir verwerfen die Nullhypothese. Andersrum, wenn das Ergebnis des Tests positiv ist, bedeutet das, dass es keinen Unterschied zwischen den Variationen gibt.
Dies ist mit dem Konzept des p-Wertes verbunden.
Was ist der p-Wert?
Der p-Wert ist die Wahrscheinlichkeit des Ergebnisses eines A/B-Tests unter Berücksichtigung der Nullhypothese.
Kurz gesagt, wenn der p-Wert niedrig ist (geringer als 0,05), ist die Nullhypothese wahrscheinlich falsch, was bedeutet, dass es einen Unterschied zwischen den Varianten gibt.
Ist der p-Wert hingegen hoch (höher als 0,05), dann ist die Nullhypothese mit hoher Wahrscheinlichkeit wahr, d. h. es gibt wahrscheinlich keinen Unterschied zwischen den Testvarianten. Zu diesem Zeitpunkt solltest du zumindest noch keine Rückschlüsse ziehen und weitere Daten in die Analyse einfließen lassen.
Der p-Wert stellt lediglich fest, ob es einen Unterschied gibt. Er gibt keine Auskunft darüber, welche Testvariante besser oder schlechter ist oder ob A > B oder B > A ist.
Hinweis: Der p-Wert wird oft mit dem Begriff „Konfidenzniveau“ beschrieben. Man spricht dann von einer Prozentangabe (1 – p-Wert)*100.
Was bedeutet statistische Signifikanz?
Das Erreichen der statistischen Signifikanz bedeutet, dass das Konfidenzniveau gleich oder größer als ein bestimmter Schwellenwert ist. Theoretisch muss dieser Schwellenwert einmal festgelegt werden: vor Beginn des Experiments.
Für das Konfidenzniveau beträgt ein üblicher Schwellenwert für seine statistische Signifikanz 95 % (was einem p-Wert von 0,05 entspricht), das ist aber nur eine Konvention.
Dieser Schwellenwert sollte unter Berücksichtigung der Besonderheiten jedes einzelnen Unternehmens festgelegt werden, da er in direktem Zusammenhang mit dem Risiko steht, das für das Experiment als angemessen erachtet wird.
Denk auch daran, dass eine statistische Signifikanz von 95 % bedeutet, dass statistisch gesehen eines von 20 Ergebnissen falsch ist, ohne dass du es erkennen kannst.
Auf welchem Algorithmus basiert dieser Rechner für die statistische Signifikanz?
Der Algorithmus basiert derzeit auf einer Hochrechnung der z-Faktor Formel, die in der Regel für die Normalverteilung verwendet wird. AB Tasty bietet auch Bayes’sches A/B-Testing und Multi-armed Bandit Testing an.
Was bedeutet die „Statistical Power“ eines Tests?
Die statistische Aussagekraft ist die Fähigkeit eines Tests, einen Effekt nachzuweisen, wenn dieser tatsächlich vorhanden ist, d. h.: einen Unterschied zwischen Varianten nachzuweisen, wenn ein echter Unterschied vorhanden ist.
Was sind Fehler Typ I und II?
Bei Wahrscheinlichkeitsberechnungen gibt es zwei Formen von Fehlermeldungen. In einem A/B-Test beschreibt Typ 1, auch „false positive“ genannt, die schlechtere Variante als Gewinner, während Typ 2 eine gewinnende Variante nicht feststellt.
Die Unterscheidung ist nicht nur theoretisch: Fehler Typ I- und Typ II verursachen oft nicht die gleichen Kosten! Es ist also wünschenswert, sie unterschiedlich zu behandeln.
Was ist der Unterschied zwischen einseitigen und zweiseitigen Tests?
Der Unterschied liegt im Umfang ihres Ergebnisses:
Einseitige Tests geben nur eine Aussage darüber, ob A = B oder nicht. Wenn A != B, könnte es sein, dass A > B oder A < B.
Zweiseitige Tests liefern eine weitere Information: Wenn A != B, ist A > B oder A < B?
Dies ist für A/B-Tests sehr wichtig, da die Richtung einer eventuell vorhandenen Differenz vor Beginn eines Experiments im Allgemeinen unbekannt ist.
Zweiseitige Tests sind sicherer in der Anwendung und werden deshalb von uns bei AB Tasty verwendet.
Schneller wachsen mit ABTasty
Erhalte eine individuelle Web Demo unserer Plattform.
