Die Berechnung der Stichprobengröße für A/B-Tests leicht gemacht
Im Kern zielt der A/B-Testing-Prozess darauf ab, zuverlässige Ergebnisse zu liefern, damit Sie fundierte Entscheidungen auf Basis harter Daten und nicht Ihres Bauchgefühls treffen können. Wie viele Besucher Sie allerdings benötigen, um diesen Ergebnissen zu 100 % vertrauen zu können, hängt wiederum von verschiedenen Faktoren ab. Zum Glück stehen Ihnen heutzutage zahlreiche Online-Tools zur Verfügung, die diese Berechnung übernehmen und Unsicherheiten aus dem Prozess entfernen – und das ganz ohne Mathematikstudium.

So funktioniert die Berechnung der Stichprobengröße
Der entscheidende Grund, die optimale Stichprobengröße für einen Test zu berechnen, liegt darin, dass sie Ihre gesamte Zielgruppe möglichst realistisch abbildet. Nur so werden die Ergebnisse belastbar und Sie vermeiden Fehlinterpretationen, wie etwa falsche positive oder negative Resultate. Ist die Stichprobe zu klein, können die Ergebnisse stark verzerrt sein. Ist sie hingegen zu groß, investieren Sie unnötig Zeit und Ressourcen, ohne zusätzlichen Erkenntnisgewinn.
Als grobe Faustregel gilt, dass pro Testvariante mindestens 10.000 Besucher einbezogen sowie mindestens 300 Conversions erzielt werden sollten. Die exakte Stichprobengröße lässt sich für jede A/B-Testvariante mithilfe einer standardisierten mathematischen Formel berechnen, die wie folgt aussieht:

Hier finden Sie eine Übersicht darüber, wofür die einzelnen Variablen in der Gleichung stehen:
- n bezeichnet die benötigte Stichprobengröße pro Testvariante. (Sample Size)
- p1 ist die Ausgangs-Konversionsrate, also die aktuelle Basislinie. (Baseline Conversion Rate)
- p2 beschreibt die Konversionsrate nach der erwarteten Veränderung, basierend auf dem minimal messbaren Effekt (Minimum Detectable Effect / MDE).
- Z⍺/2 steht für den Z-Wert des Signifikanzniveaus und gibt an, wie sicher Sie sein können, dass das Ergebnis nicht zufällig entstanden ist. (Statistical Significance Level)
- Zβ steht für den Z-Wert der Teststärke, also dafür, wie wahrscheinlich es ist, dass ein tatsächlicher Effekt auch erkannt wird. (Statistical Power)
Klingt kompliziert? Bevor Sie jetzt allerdings zum Mathebuch greifen, bleiben Sie erstmal entspannt. Werfen wir stattdessen einen Blick darauf, was die einzelnen Variablen im Detail bedeuten:
- Die Baseline Conversion Rate beschreibt die aktuelle Konversionsrate für das Ziel, das Sie verbessern möchten. Das kann zum Beispiel die Anmelderate, die Kaufabschlussrate oder die Klickrate sein.
- Der Minimum Detectable Effect, kurz MDE, steht für die kleinste Veränderung der Konversionsrate, die Sie mit statistischer Sicherheit nachweisen möchten. Er bestimmt damit, wie feinfühlig Ihr A/B-Test auf Unterschiede reagiert.
- Statistical Significance Level: Das Signifikanzniveau gibt an, wie wahrscheinlich es ist, dass der Unterschied zwischen Ihrer Ausgangsrate und der Konversionsrate einer Testvariante nicht zufällig entstanden ist. Als gängiger Standard gelten hierbei 95 Prozent. Der zugehörige Z-Wert liegt somit bei 1,96.
- Statistical Power: Die Teststärke beschreibt die Wahrscheinlichkeit, dass Ihr Test einen tatsächlich vorhandenen Effekt auch erkennt. Üblicherweise wird hier mit 80 Prozent gearbeitet. Das bedeutet, Sie haben eine 80-prozentige Chance, einen echten Gewinner zu identifizieren. Der entsprechende Z-Wert beträgt 0,84.

Zum Glück gibt es inzwischen zahlreiche Online-Tools, die Ihnen diese zunächst recht komplex wirkende Berechnung abnehmen. In den meisten Fällen reicht es aus, einfach in diese, die zuvor genannten Variablen einzugeben, und Sie erhalten direkt eine verlässliche Einschätzung.
Wichtig ist dabei zu beachten, dass sowohl der Minimum Detectable Effect als auch die Statistical Power einen direkten Einfluss auf die benötigte Stichprobengröße haben. Wenn Sie eine höhere Statistical Power anstreben oder einen kleineren Minimum Detectable Effect festlegen, muss Ihre Stichprobe entsprechend größer sein. Das wirkt sich wiederum auf die Laufzeit des Tests und den erforderlichen Ressourceneinsatz aus.
Irgendwann stellt sich daher ganz zwangsläufig die Frage, ob sich dieser zusätzliche Aufwand am Ende noch lohnt.
Verschiedene Ansätze zur Berechnung des Stichprobenumfangs
Viele Plattformen empfehlen, die Stichprobengröße eines A/B-Tests erst in der Planungsphase direkt vor Testbeginn zu berechnen. Aus Sicht von AB Tasty greift das jedoch zu kurz. Denn wenn sich erst dann herausstellen sollte, dass die benötigte Stichprobe zu groß ist und der Test dadurch zu lange laufen würde, ist es oft bereits zu spät. In solchen Fällen lohnt es sich schlicht nicht mehr, die Testvariante überhaupt umzusetzen.
Aus diesem Grund hat AB Tasty einen MDE-Rechner entwickelt, der bereits vor der eigentlichen Testplanung ansetzt. Damit können Sie frühzeitig abschätzen, welcher Mindestanstieg erforderlich ist und wie lange ein Experiment basierend auf Ihren realen historischen Daten laufen müsste, um statistische Signifikanz zu erreichen. So stellen Sie sicher, dass Sie von Anfang an mit realistischen Erwartungen arbeiten.
Die Nutzung unseres Minimum Detectable Effect Calculators ist dabei denkbar einfach:
Eingeben
Basislinie definieren
Geben Sie Ihre aktuellen Website-Besucherzahlen sowie die Conversion-Rate für das konkrete Ziel ein, das Sie verbessern möchten.
Berechnen
Chancen identifizieren
Der Rechner schätzt den für die Signifikanz erforderlichen Mindestanstieg. Sehen Sie genau, wie viele Tage es dauert, bis Ihre Konfidenzschwelle erreicht ist.
Starten
Verlust vermeiden
Verschwenden Sie keine Zeit und Ressourcen für Tests, die voraussichtlich keine schlüssigen oder statistisch signifikanten Ergebnisse liefern werden.
Zusätzlich steht Ihnen ein Stichprobengrößenrechner zur Verfügung, mit dem Sie die benötigte Anzahl an Besuchern für Ihren Test bestimmen und abschätzen können, wie lange Ihr Test laufen sollte, um die gewünschten Ergebnisse zu erzielen. Dieses Tool ist jedoch für laufende Tests gedacht und nicht für die Planung vor dem Teststart.
So berechnen Sie die Besucherzahl:
- Sie geben die aktuelle Konversionsrate für das Ziel ein, das Sie verbessern möchten, sowie den erwarteten Anstieg zwischen den Testvarianten.
- Unser Rechner schätzt dann die erforderliche Anzahl an Besuchern pro Testvariante.
So berechnen Sie die Dauer Ihres A/B-Tests:
- Zusätzlich zu den im vorherigen Schritt eingegebenen Informationen geben Sie die durchschnittliche Anzahl der täglichen Unique Visitors einer getesteten Seite sowie die Gesamtzahl der Testvarianten einschließlich der Kontrollversion ein.
- Unser Rechner schätzt dann die minimal erforderliche Testdauer in Tagen, um die gewünschten Ergebnisse zu erzielen. Diese Zahl ist jedoch mit einer Einschränkung verbunden, wie wir in weiterer Folge noch erläutern werden.
Best Practices und Fallstricke
Sehen wir uns nun einige der wichtigsten Dos und Don’ts an, die man bei der Berechnung der Testdauer und des Stichprobenumfangs beachten sollte.
1. Testen Sie für mindestens 14 Tage
Selbst wenn Sie Ihre erforderliche Stichprobengröße bereits nach wenigen Tagen erreichen oder der Rechner eine kürzere Testdauer nahelegt, gilt es als Best Practice, einen A/B-Test mindestens zwei Wochen laufen zu lassen.
So werden Schwankungen im Nutzerverhalten besser ausgeglichen, etwa Unterschiede zwischen Wochentagen und Wochenenden, wodurch Ihre Datenbasis deutlich verlässlicher wird.
2. Berücksichtigen Sie externe Faktoren wie saisonale Schwankungen
Bestimmte Zeitpunkte im Jahr, etwa Weihnachten, Black Friday oder lange Wochenenden, können Ihre Ergebnisse stark verzerren, wenn ein Test genau zu diesen Momenten läuft. Wenn Sie möchten, dass Ihre Stichprobe Ihre Zielgruppe realistisch abbildet, sollten Sie solche Sondereffekte unbedingt vermeiden.
3. Beenden Sie Tests nicht zu früh
Sie sollten außerdem der Versuchung widerstehen, Tests bereits vor Erreichen der geplanten Testdauer oder Stichprobengröße auszuwerten. Andernfalls steigt das Risiko erheblich, zu falschen Schlussfolgerungen zu gelangen.
Unser KI-Agent „Evi Analysis“ stützt sich auf statistische Signifikanz, um einen Gewinner zu ermitteln. Damit er seine Aufgabe korrekt erfüllen kann, sollten Sie Evi erst dann bitten, die Ergebnisse zu interpretieren, wenn der Test die vom Stichprobengrößenrechner empfohlene Besucherzahl erreicht hat. Denn Evi Analysis kann nicht von sich aus wissen, dass Sie ursprünglich eine Stichprobengröße von beispielsweise 100.000 Besuchern geplant hatten, sich danach aber entschieden haben, den Test bereits nach 10.000 Besuchern zu beenden.
4. Vergessen Sie nicht auf die praktische Anwendbarkeit
Auch wenn die Testergebnisse statistisch signifikant sein sollten, bedeutet das nicht automatisch, dass sie für Ihr Unternehmen von praktischem Nutzen sind. Wenn die Umsetzung einer aus den Testergebnissen abgeleiteten Änderung zu kostspielig wäre, lohnt es sich möglicherweise gar nicht erst, den Test durchzuführen.
5. Priorisieren Sie Seiten mit hohem Traffic
Zu Beginn sollten Sie Ihre Tests auf die Seiten Ihrer Website konzentrieren, die den meisten Traffic erhalten. Dazu zählen beispielsweise die Startseite, Produktübersichtsseiten und Produktseiten. Durch das höhere Besucheraufkommen auf diesen Seiten können Sie schneller ausreichend Daten sammeln und Ihre Tests zügiger durchführen.
6. Begrenzen Sie die Anzahl der Varianten
Das gleichzeitige Testen mehrerer Varianten mag effizienter erscheinen, erhöht jedoch das Risiko von falsch positiven Ergebnissen. Wenn Sie Tests auf Seiten mit geringem Besucheraufkommen durchführen, verhindert die Verwendung einer geringeren Anzahl von Varianten, dass die Stichprobe der Besucher zu dünn gestreut wird.
7. Zielen Sie bewusst breit
Führen Sie nach Möglichkeit A/B-Tests in mehreren Ländern oder Marktsegmenten durch, um den Stichprobenumfang zu vergrößern.
Fazit: Von Vermutungen zu Wachstum
Die Berechnung der richtigen Stichprobengröße für Ihre A/B-Tests ist der Schlüssel zu statistisch signifikanten Ergebnissen, auf die Sie sich zu 100 % verlassen können. Sie müssen jedoch heutzutage kein Mathegenie mehr sein, um verlässlich herauszufinden, wie groß Ihre Stichprobengröße sein sollte.
Indem Sie unseren MDE-Rechner für die Vorabplanung Ihrer Tests nutzen und sich an die Best Practices für Stichprobengröße und Testdauer halten, können Sie sicherstellen, dass Ihre A/B-Tests sowohl effektiv als auch zuverlässig sind.
Sind Sie bereit, das Rechnen hinter sich zu lassen und mit dem Umsetzen zu beginnen?
Häufige Fragen zur Berechnung der Stichprobengröße bei A/B-Tests
Haben Sie noch Fragen zur Berechnung der Stichprobengröße? Hier finden Sie die Antworten, die Sie suchen.
Warum ist die Berechnung der Stichprobengröße bei A/B-Tests wichtig?
Die Berechnung der Stichprobengröße stellt sicher, dass Ihr Test über genügend Aussagekraft verfügt, um einen signifikanten Unterschied zwischen den Varianten festzustellen, ohne dabei Ressourcen zu verschwenden. Eine zu kleine Stichprobe kann zu falsch-negativen Ergebnissen führen, während eine zu große Stichprobe ineffizient ist oder unnötig viele Nutzer einbezieht.
Welchen Ansatz sollte ich zur Berechnung des Stichprobenumfangs verwenden?
In der Regel verwendet man eine Leistungsanalyse, welche die erwartete Effektgröße, das Signifikanzniveau (α) und die gewünschte Aussagekraft (1−β) berücksichtigt. Hilfsmittel wie Online-Rechner oder Statistiksoftware können dabei helfen; sie basieren je nach der gewählten Metrik auf einer binomialen oder einer normalen Näherung.
Wie bestimmt man den minimal nachweisbaren Effekt (MDE) für einen A/B-Test?
Der MDE ist die kleinste Veränderung zwischen Ihrer Kontroll- und Ihrer Variantenversion, die Sie als praktisch signifikant erachten. Dieser Wert wird auf der Grundlage von Geschäftszielen, Basis-Konversionsraten und der von Ihnen angestrebten statistischen Aussagekraft berechnet – in der Regel, indem Sie festlegen, welcher Anstieg der Kennzahlen (z. B. Klickrate, Umsatz) die Einführung der neuen Version rechtfertigen würde.
Über den Autor
Hubert Wassner
Hubert Wassner ist Chief Data Scientist bei AB Tasty, wo er über ein Jahrzehnt Erfahrung in den Bereichen künstliche Intelligenz und maschinelles Lernen in die Welt der Experimente einbringt. Mit seinem fundierten akademischen Hintergrund in Computerwissenschaften ist Hubert der leitende Entwickler der ausgeklügelten statistischen Modelle, auf denen die AB Tasty-Plattform basiert. Damit trägt er dazu bei, dass Marken wichtige Entscheidungen mit vollstem Vertrauen treffen können.
Er schreibt zudem regelmäßig Beiträge für den AB Tasty-Blog, wobei er sich darauf konzentriert, komplexe datenwissenschaftliche Konzepte – von der Bayes’schen Statistik bis hin zur prädiktiven KI – zu entmystifizieren und in praktische Strategien für digitales Wachstum zu verwandeln. Mit dem Ziel, die Kluft zwischen anspruchsvoller Technik und praktischer Geschäftsanwendung zu überbrücken, hilft Hubert Marken dabei, die technische Evolution des digitalen Zeitalters mit Klarheit, Präzision und einem Fokus auf menschenzentrierte Innovation zu meistern.
