Blogartikel

9min. Lesezeit

Berechnung der Stichprobengröße bei A/B-Tests: 7 Best Practices

Die Berechnung der Stichprobengröße für A/B-Tests leicht gemacht

Im Kern zielt der A/B-Testing-Prozess darauf ab, zuverlässige Ergebnisse zu liefern, damit Sie fundierte Entscheidungen auf Basis harter Daten und nicht Ihres Bauchgefühls treffen können. Wie viele Besucher Sie allerdings benötigen, um diesen Ergebnissen zu 100 % vertrauen zu können, hängt wiederum von verschiedenen Faktoren ab. Zum Glück stehen Ihnen heutzutage zahlreiche Online-Tools zur Verfügung, die diese Berechnung übernehmen und Unsicherheiten aus dem Prozess entfernen – und das ganz ohne Mathematikstudium.

Ein weißer Taschenrechner.

So funktioniert die Berechnung der Stichprobengröße

Der entscheidende Grund, die optimale Stichprobengröße für einen Test zu berechnen, liegt darin, dass sie Ihre gesamte Zielgruppe möglichst realistisch abbildet. Nur so werden die Ergebnisse belastbar und Sie vermeiden Fehlinterpretationen, wie etwa falsche positive oder negative Resultate. Ist die Stichprobe zu klein, können die Ergebnisse stark verzerrt sein. Ist sie hingegen zu groß, investieren Sie unnötig Zeit und Ressourcen, ohne zusätzlichen Erkenntnisgewinn.

Als grobe Faustregel gilt, dass pro Testvariante mindestens 10.000 Besucher einbezogen sowie mindestens 300 Conversions erzielt werden sollten. Die exakte Stichprobengröße lässt sich für jede A/B-Testvariante mithilfe einer standardisierten mathematischen Formel berechnen, die wie folgt aussieht:

Die Formel zur Berechnung der Stichprobengröße

Hier finden Sie eine Übersicht darüber, wofür die einzelnen Variablen in der Gleichung stehen:

  • n bezeichnet die benötigte Stichprobengröße pro Testvariante. (Sample Size)
  • p1 ist die Ausgangs-Konversionsrate, also die aktuelle Basislinie. (Baseline Conversion Rate)
  • p2 beschreibt die Konversionsrate nach der erwarteten Veränderung, basierend auf dem minimal messbaren Effekt (Minimum Detectable Effect / MDE).
  • Z⍺/2 steht für den Z-Wert des Signifikanzniveaus und gibt an, wie sicher Sie sein können, dass das Ergebnis nicht zufällig entstanden ist. (Statistical Significance Level)
  • Zβ steht für den Z-Wert der Teststärke, also dafür, wie wahrscheinlich es ist, dass ein tatsächlicher Effekt auch erkannt wird. (Statistical Power)

Klingt kompliziert? Bevor Sie jetzt allerdings zum Mathebuch greifen, bleiben Sie erstmal entspannt. Werfen wir stattdessen einen Blick darauf, was die einzelnen Variablen im Detail bedeuten:

  • Die Baseline Conversion Rate beschreibt die aktuelle Konversionsrate für das Ziel, das Sie verbessern möchten. Das kann zum Beispiel die Anmelderate, die Kaufabschlussrate oder die Klickrate sein.
  • Der Minimum Detectable Effect, kurz MDE, steht für die kleinste Veränderung der Konversionsrate, die Sie mit statistischer Sicherheit nachweisen möchten. Er bestimmt damit, wie feinfühlig Ihr A/B-Test auf Unterschiede reagiert.
  • Statistical Significance Level: Das Signifikanzniveau gibt an, wie wahrscheinlich es ist, dass der Unterschied zwischen Ihrer Ausgangsrate und der Konversionsrate einer Testvariante nicht zufällig entstanden ist. Als gängiger Standard gelten hierbei 95 Prozent. Der zugehörige Z-Wert liegt somit bei 1,96.
  • Statistical Power: Die Teststärke beschreibt die Wahrscheinlichkeit, dass Ihr Test einen tatsächlich vorhandenen Effekt auch erkennt. Üblicherweise wird hier mit 80 Prozent gearbeitet. Das bedeutet, Sie haben eine 80-prozentige Chance, einen echten Gewinner zu identifizieren. Der entsprechende Z-Wert beträgt 0,84.
Steigern Sie Ihre Konversionsraten, indem Sie personalisierte Erlebnisse schaffen.

Zum Glück gibt es inzwischen zahlreiche Online-Tools, die Ihnen diese zunächst recht komplex wirkende Berechnung abnehmen. In den meisten Fällen reicht es aus, einfach in diese, die zuvor genannten Variablen einzugeben, und Sie erhalten direkt eine verlässliche Einschätzung.

Wichtig ist dabei zu beachten, dass sowohl der Minimum Detectable Effect als auch die Statistical Power einen direkten Einfluss auf die benötigte Stichprobengröße haben. Wenn Sie eine höhere Statistical Power anstreben oder einen kleineren Minimum Detectable Effect festlegen, muss Ihre Stichprobe entsprechend größer sein. Das wirkt sich wiederum auf die Laufzeit des Tests und den erforderlichen Ressourceneinsatz aus.

Irgendwann stellt sich daher ganz zwangsläufig die Frage, ob sich dieser zusätzliche Aufwand am Ende noch lohnt.

Verschiedene Ansätze zur Berechnung des Stichprobenumfangs

Viele Plattformen empfehlen, die Stichprobengröße eines A/B-Tests erst in der Planungsphase direkt vor Testbeginn zu berechnen. Aus Sicht von AB Tasty greift das jedoch zu kurz. Denn wenn sich erst dann herausstellen sollte, dass die benötigte Stichprobe zu groß ist und der Test dadurch zu lange laufen würde, ist es oft bereits zu spät. In solchen Fällen lohnt es sich schlicht nicht mehr, die Testvariante überhaupt umzusetzen.

Aus diesem Grund hat AB Tasty einen MDE-Rechner entwickelt, der bereits vor der eigentlichen Testplanung ansetzt. Damit können Sie frühzeitig abschätzen, welcher Mindestanstieg erforderlich ist und wie lange ein Experiment basierend auf Ihren realen historischen Daten laufen müsste, um statistische Signifikanz zu erreichen. So stellen Sie sicher, dass Sie von Anfang an mit realistischen Erwartungen arbeiten.

Die Nutzung unseres Minimum Detectable Effect Calculators ist dabei denkbar einfach:

1

Eingeben

Basislinie definieren

Geben Sie Ihre aktuellen Website-Besucherzahlen sowie die Conversion-Rate für das konkrete Ziel ein, das Sie verbessern möchten.

2

Berechnen

Chancen identifizieren

Der Rechner schätzt den für die Signifikanz erforderlichen Mindestanstieg. Sehen Sie genau, wie viele Tage es dauert, bis Ihre Konfidenzschwelle erreicht ist.

3

Starten

Verlust vermeiden

Verschwenden Sie keine Zeit und Ressourcen für Tests, die voraussichtlich keine schlüssigen oder statistisch signifikanten Ergebnisse liefern werden.

Zusätzlich steht Ihnen ein Stichprobengrößenrechner zur Verfügung, mit dem Sie die benötigte Anzahl an Besuchern für Ihren Test bestimmen und abschätzen können, wie lange Ihr Test laufen sollte, um die gewünschten Ergebnisse zu erzielen. Dieses Tool ist jedoch für laufende Tests gedacht und nicht für die Planung vor dem Teststart.

So berechnen Sie die Besucherzahl:

  • Sie geben die aktuelle Konversionsrate für das Ziel ein, das Sie verbessern möchten, sowie den erwarteten Anstieg zwischen den Testvarianten.
  • Unser Rechner schätzt dann die erforderliche Anzahl an Besuchern pro Testvariante.

So berechnen Sie die Dauer Ihres A/B-Tests:

  • Zusätzlich zu den im vorherigen Schritt eingegebenen Informationen geben Sie die durchschnittliche Anzahl der täglichen Unique Visitors einer getesteten Seite sowie die Gesamtzahl der Testvarianten einschließlich der Kontrollversion ein.
  • Unser Rechner schätzt dann die minimal erforderliche Testdauer in Tagen, um die gewünschten Ergebnisse zu erzielen. Diese Zahl ist jedoch mit einer Einschränkung verbunden, wie wir in weiterer Folge noch erläutern werden.

Best Practices und Fallstricke

Sehen wir uns nun einige der wichtigsten Dos und Don’ts an, die man bei der Berechnung der Testdauer und des Stichprobenumfangs beachten sollte.

1. Testen Sie für mindestens 14 Tage

Selbst wenn Sie Ihre erforderliche Stichprobengröße bereits nach wenigen Tagen erreichen oder der Rechner eine kürzere Testdauer nahelegt, gilt es als Best Practice, einen A/B-Test mindestens zwei Wochen laufen zu lassen.

So werden Schwankungen im Nutzerverhalten besser ausgeglichen, etwa Unterschiede zwischen Wochentagen und Wochenenden, wodurch Ihre Datenbasis deutlich verlässlicher wird.

2. Berücksichtigen Sie externe Faktoren wie saisonale Schwankungen

Bestimmte Zeitpunkte im Jahr, etwa Weihnachten, Black Friday oder lange Wochenenden, können Ihre Ergebnisse stark verzerren, wenn ein Test genau zu diesen Momenten läuft. Wenn Sie möchten, dass Ihre Stichprobe Ihre Zielgruppe realistisch abbildet, sollten Sie solche Sondereffekte unbedingt vermeiden.

3. Beenden Sie Tests nicht zu früh

Sie sollten außerdem der Versuchung widerstehen, Tests bereits vor Erreichen der geplanten Testdauer oder Stichprobengröße auszuwerten. Andernfalls steigt das Risiko erheblich, zu falschen Schlussfolgerungen zu gelangen.

Unser KI-Agent „Evi Analysis“ stützt sich auf statistische Signifikanz, um einen Gewinner zu ermitteln. Damit er seine Aufgabe korrekt erfüllen kann, sollten Sie Evi erst dann bitten, die Ergebnisse zu interpretieren, wenn der Test die vom Stichprobengrößenrechner empfohlene Besucherzahl erreicht hat. Denn Evi Analysis kann nicht von sich aus wissen, dass Sie ursprünglich eine Stichprobengröße von beispielsweise 100.000 Besuchern geplant hatten, sich danach aber entschieden haben, den Test bereits nach 10.000 Besuchern zu beenden.

4. Vergessen Sie nicht auf die praktische Anwendbarkeit

Auch wenn die Testergebnisse statistisch signifikant sein sollten, bedeutet das nicht automatisch, dass sie für Ihr Unternehmen von praktischem Nutzen sind. Wenn die Umsetzung einer aus den Testergebnissen abgeleiteten Änderung zu kostspielig wäre, lohnt es sich möglicherweise gar nicht erst, den Test durchzuführen.

5. Priorisieren Sie Seiten mit hohem Traffic

Zu Beginn sollten Sie Ihre Tests auf die Seiten Ihrer Website konzentrieren, die den meisten Traffic erhalten. Dazu zählen beispielsweise die Startseite, Produktübersichtsseiten und Produktseiten. Durch das höhere Besucheraufkommen auf diesen Seiten können Sie schneller ausreichend Daten sammeln und Ihre Tests zügiger durchführen.

6. Begrenzen Sie die Anzahl der Varianten

Das gleichzeitige Testen mehrerer Varianten mag effizienter erscheinen, erhöht jedoch das Risiko von falsch positiven Ergebnissen. Wenn Sie Tests auf Seiten mit geringem Besucheraufkommen durchführen, verhindert die Verwendung einer geringeren Anzahl von Varianten, dass die Stichprobe der Besucher zu dünn gestreut wird.

7. Zielen Sie bewusst breit

Führen Sie nach Möglichkeit A/B-Tests in mehreren Ländern oder Marktsegmenten durch, um den Stichprobenumfang zu vergrößern.

Fazit: Von Vermutungen zu Wachstum

Die Berechnung der richtigen Stichprobengröße für Ihre A/B-Tests ist der Schlüssel zu statistisch signifikanten Ergebnissen, auf die Sie sich zu 100 % verlassen können. Sie müssen jedoch heutzutage kein Mathegenie mehr sein, um verlässlich herauszufinden, wie groß Ihre Stichprobengröße sein sollte.

Indem Sie unseren MDE-Rechner für die Vorabplanung Ihrer Tests nutzen und sich an die Best Practices für Stichprobengröße und Testdauer halten, können Sie sicherstellen, dass Ihre A/B-Tests sowohl effektiv als auch zuverlässig sind.

Sind Sie bereit, das Rechnen hinter sich zu lassen und mit dem Umsetzen zu beginnen?

Häufige Fragen zur Berechnung der Stichprobengröße bei A/B-Tests

Haben Sie noch Fragen zur Berechnung der Stichprobengröße? Hier finden Sie die Antworten, die Sie suchen.

Profile Image