Die Berechnung der StichprobengröĂe fĂŒr A/B-Tests leicht gemacht
Im Kern zielt der A/B-Testing-Prozess darauf ab, zuverlĂ€ssige Ergebnisse zu liefern, damit Sie fundierte Entscheidungen auf Basis harter Daten und nicht Ihres BauchgefĂŒhls treffen können.
Wie viele Besucher Sie allerdings benötigen, um diesen Ergebnissen zu 100 % vertrauen zu können, hĂ€ngt wiederum von verschiedenen Faktoren ab. Zum GlĂŒck stehen Ihnen heutzutage zahlreiche Online-Tools zur VerfĂŒgung, die diese Berechnung ĂŒbernehmen und Unsicherheiten aus dem Prozess entfernen â und das ganz ohne Mathematikstudium.

So funktioniert die Berechnung der StichprobengröĂe
Der entscheidende Grund, die optimale StichprobengröĂe fĂŒr einen Test zu berechnen, liegt darin, dass sie Ihre gesamte Zielgruppe möglichst realistisch abbildet. Nur so werden die Ergebnisse belastbar und Sie vermeiden Fehlinterpretationen, wie etwa falsche positive oder negative Resultate.
Ist die Stichprobe zu klein, können die Ergebnisse stark verzerrt sein. Ist sie hingegen zu groĂ, investieren Sie unnötig Zeit und Ressourcen, ohne zusĂ€tzlichen Erkenntnisgewinn.
Als grobe Faustregel gilt, dass pro Testvariante mindestens 10.000 Besucher einbezogen sowie mindestens 300 Conversions erzielt werden sollten. Die exakte StichprobengröĂe lĂ€sst sich fĂŒr jede A/B-Testvariante mithilfe einer standardisierten mathematischen Formel berechnen, die wie folgt aussieht:

Hier finden Sie eine Ăbersicht darĂŒber, wofĂŒr die einzelnen Variablen in der Gleichung stehen:
- n bezeichnet die benötigte StichprobengröĂe pro Testvariante. (Sample Size)
- p1 ist die Ausgangs-Konversionsrate, also die aktuelle Basislinie. (Baseline Conversion Rate)
- p2 beschreibt die Konversionsrate nach der erwarteten VerÀnderung, basierend auf dem minimal messbaren Effekt (Minimum Detectable Effect / MDE).
- Zâș/2 steht fĂŒr den Z-Wert des Signifikanzniveaus und gibt an, wie sicher Sie sein können, dass das Ergebnis nicht zufĂ€llig entstanden ist. (Statistical Significance Level)
- ZÎČ steht fĂŒr den Z-Wert der TeststĂ€rke, also dafĂŒr, wie wahrscheinlich es ist, dass ein tatsĂ€chlicher Effekt auch erkannt wird. (Statistical Power)
Klingt kompliziert? Bevor Sie jetzt allerdings zum Mathebuch greifen, bleiben Sie erstmal entspannt. Werfen wir stattdessen einen Blick darauf, was die einzelnen Variablen im Detail bedeuten:
- Die Baseline Conversion Rate beschreibt die aktuelle Konversionsrate fĂŒr das Ziel, das Sie verbessern möchten. Das kann zum Beispiel die Anmelderate, die Kaufabschlussrate oder die Klickrate sein.
- Der Minimum Detectable Effect, kurz MDE, steht fĂŒr die kleinste VerĂ€nderung der Konversionsrate, die Sie mit statistischer Sicherheit nachweisen möchten. Er bestimmt damit, wie feinfĂŒhlig Ihr A/B-Test auf Unterschiede reagiert.
- Statistical Significance Level: Das Signifikanzniveau gibt an, wie wahrscheinlich es ist, dass der Unterschied zwischen Ihrer Ausgangsrate und der Konversionsrate einer Testvariante nicht zufÀllig entstanden ist. Als gÀngiger Standard gelten hierbei 95 Prozent. Der zugehörige Z-Wert liegt somit bei 1,96.
- Statistical Power: Die TeststĂ€rke beschreibt die Wahrscheinlichkeit, dass Ihr Test einen tatsĂ€chlich vorhandenen Effekt auch erkennt. Ăblicherweise wird hier mit 80 Prozent gearbeitet. Das bedeutet, Sie haben eine 80-prozentige Chance, einen echten Gewinner zu identifizieren. Der entsprechende Z-Wert betrĂ€gt 0,84.

Zum GlĂŒck gibt es inzwischen zahlreiche Online-Tools, die Ihnen diese zunĂ€chst recht komplex wirkende Berechnung abnehmen. In den meisten FĂ€llen reicht es aus, einfach in diese, die zuvor genannten Variablen einzugeben, und Sie erhalten direkt eine verlĂ€ssliche EinschĂ€tzung.
Wichtig ist dabei zu beachten, dass sowohl der Minimum Detectable Effect als auch die Statistical Power einen direkten Einfluss auf die benötigte StichprobengröĂe haben. Wenn Sie eine höhere Statistical Power anstreben oder einen kleineren Minimum Detectable Effect festlegen, muss Ihre Stichprobe entsprechend gröĂer sein. Das wirkt sich wiederum auf die Laufzeit des Tests und den erforderlichen Ressourceneinsatz aus.
Irgendwann stellt sich daher ganz zwangslÀufig die Frage, ob sich dieser zusÀtzliche Aufwand am Ende noch lohnt.
Verschiedene AnsÀtze zur Berechnung des Stichprobenumfangs
Viele Plattformen empfehlen, die StichprobengröĂe eines A/B-Tests erst in der Planungsphase direkt vor Testbeginn zu berechnen. Aus Sicht von AB Tasty greift das jedoch zu kurz. Denn wenn sich erst dann herausstellen sollte, dass die benötigte Stichprobe zu groĂ ist und der Test dadurch zu lange laufen wĂŒrde, ist es oft bereits zu spĂ€t. In solchen FĂ€llen lohnt es sich schlicht nicht mehr, die Testvariante ĂŒberhaupt umzusetzen.
Aus diesem Grund hat AB Tasty einen MDE-Rechner entwickelt, der bereits vor der eigentlichen Testplanung ansetzt. Damit können Sie frĂŒhzeitig abschĂ€tzen, welcher Mindestanstieg erforderlich ist und wie lange ein Experiment basierend auf Ihren realen historischen Daten laufen mĂŒsste, um statistische Signifikanz zu erreichen. So stellen Sie sicher, dass Sie von Anfang an mit realistischen Erwartungen arbeiten.
Die Nutzung unseres Minimum Detectable Effect Calculators ist dabei denkbar einfach:
Eingeben
Basislinie definieren
Geben Sie Ihre aktuellen Website-Besucherzahlen sowie die Conversion-Rate fĂŒr das konkrete Ziel ein, das Sie verbessern möchten.
Berechnen
Chancen identifizieren
Der Rechner schĂ€tzt den fĂŒr die Signifikanz erforderlichen Mindestanstieg. Sehen Sie genau, wie viele Tage es dauert, bis Ihre Konfidenzschwelle erreicht ist.
Starten
Verlust vermeiden
Verschwenden Sie keine Zeit und Ressourcen fĂŒr Tests, die voraussichtlich keine schlĂŒssigen oder statistisch signifikanten Ergebnisse liefern werden.
ZusĂ€tzlich steht Ihnen ein StichprobengröĂenrechner zur VerfĂŒgung, mit dem Sie die benötigte Anzahl an Besuchern fĂŒr Ihren Test bestimmen und abschĂ€tzen können, wie lange Ihr Test laufen sollte, um die gewĂŒnschten Ergebnisse zu erzielen. Dieses Tool ist jedoch fĂŒr laufende Tests gedacht und nicht fĂŒr die Planung vor dem Teststart.
So berechnen Sie die Besucherzahl:
- Sie geben die aktuelle Konversionsrate fĂŒr das Ziel ein, das Sie verbessern möchten, sowie den erwarteten Anstieg zwischen den Testvarianten.
- Unser Rechner schÀtzt dann die erforderliche Anzahl an Besuchern pro Testvariante.
So berechnen Sie die Dauer Ihres A/B-Tests:
- ZusĂ€tzlich zu den im vorherigen Schritt eingegebenen Informationen geben Sie die durchschnittliche Anzahl der tĂ€glichen Unique Visitors einer getesteten Seite sowie die Gesamtzahl der Testvarianten einschlieĂlich der Kontrollversion ein.
- Unser Rechner schĂ€tzt dann die minimal erforderliche Testdauer in Tagen, um die gewĂŒnschten Ergebnisse zu erzielen. Diese Zahl ist jedoch mit einer EinschrĂ€nkung verbunden, wie wir in weiterer Folge noch erlĂ€utern werden.
Best Practices und Fallstricke
Sehen wir uns nun einige der wichtigsten Dos und Don’ts an, die man bei der Berechnung der Testdauer und des Stichprobenumfangs beachten sollte.
1. Testen Sie fĂŒr mindestens 14 Tage
Selbst wenn Sie Ihre erforderliche StichprobengröĂe bereits nach wenigen Tagen erreichen oder der Rechner eine kĂŒrzere Testdauer nahelegt, gilt es als Best Practice, einen A/B-Test mindestens zwei Wochen laufen zu lassen.
So werden Schwankungen im Nutzerverhalten besser ausgeglichen, etwa Unterschiede zwischen Wochentagen und Wochenenden, wodurch Ihre Datenbasis deutlich verlÀsslicher wird.
2. BerĂŒcksichtigen Sie externe Faktoren wie saisonale Schwankungen
Bestimmte Zeitpunkte im Jahr, etwa Weihnachten, Black Friday oder lange Wochenenden, können Ihre Ergebnisse stark verzerren, wenn ein Test genau zu diesen Momenten lÀuft. Wenn Sie möchten, dass Ihre Stichprobe Ihre Zielgruppe realistisch abbildet, sollten Sie solche Sondereffekte unbedingt vermeiden.
3. Beenden Sie Tests nicht zu frĂŒh
Sie sollten auĂerdem der Versuchung widerstehen, Tests bereits vor Erreichen der geplanten Testdauer oder StichprobengröĂe auszuwerten. Andernfalls steigt das Risiko erheblich, zu falschen Schlussfolgerungen zu gelangen.
Unser KI-Agent âEvi Analysisâ stĂŒtzt sich auf statistische Signifikanz, um einen Gewinner zu ermitteln. Damit er seine Aufgabe korrekt erfĂŒllen kann, sollten Sie Evi erst dann bitten, die Ergebnisse zu interpretieren, wenn der Test die vom StichprobengröĂenrechner empfohlene Besucherzahl erreicht hat.
Denn Evi Analysis kann nicht von sich aus wissen, dass Sie ursprĂŒnglich eine StichprobengröĂe von beispielsweise 100.000 Besuchern geplant hatten, sich danach aber entschieden haben, den Test bereits nach 10.000 Besuchern zu beenden.
4. Vergessen Sie nicht auf die praktische Anwendbarkeit
Auch wenn die Testergebnisse statistisch signifikant sein sollten, bedeutet das nicht automatisch, dass sie fĂŒr Ihr Unternehmen von praktischem Nutzen sind. Wenn die Umsetzung einer aus den Testergebnissen abgeleiteten Ănderung zu kostspielig wĂ€re, lohnt es sich möglicherweise gar nicht erst, den Test durchzufĂŒhren.
5. Priorisieren Sie Seiten mit hohem Traffic
Zu Beginn sollten Sie Ihre Tests auf die Seiten Ihrer Website konzentrieren, die den meisten Traffic erhalten. Dazu zĂ€hlen beispielsweise die Startseite, ProduktĂŒbersichtsseiten und Produktseiten. Durch das höhere Besucheraufkommen auf diesen Seiten können Sie schneller ausreichend Daten sammeln und Ihre Tests zĂŒgiger durchfĂŒhren.
6. Begrenzen Sie die Anzahl der Varianten
Das gleichzeitige Testen mehrerer Varianten mag effizienter erscheinen, erhöht jedoch das Risiko von falsch positiven Ergebnissen. Wenn Sie Tests auf Seiten mit geringem Besucheraufkommen durchfĂŒhren, verhindert die Verwendung einer geringeren Anzahl von Varianten, dass die Stichprobe der Besucher zu dĂŒnn gestreut wird.
7. Zielen Sie bewusst breit
FĂŒhren Sie nach Möglichkeit A/B-Tests in mehreren LĂ€ndern oder Marktsegmenten durch, um den Stichprobenumfang zu vergröĂern.
Fazit: Von Vermutungen zu Wachstum
Die Berechnung der richtigen StichprobengröĂe fĂŒr Ihre A/B-Tests ist der SchlĂŒssel zu statistisch signifikanten Ergebnissen, auf die Sie sich zu 100 % verlassen können. Sie mĂŒssen jedoch heutzutage kein Mathegenie mehr sein, um verlĂ€sslich herauszufinden, wie groĂ Ihre StichprobengröĂe sein sollte.
Indem Sie unseren MDE-Rechner fĂŒr die Vorabplanung Ihrer Tests nutzen und sich an die Best Practices fĂŒr StichprobengröĂe und Testdauer halten, können Sie sicherstellen, dass Ihre A/B-Tests sowohl effektiv als auch zuverlĂ€ssig sind.
Sind Sie bereit, das Rechnen hinter sich zu lassen und mit dem Umsetzen zu beginnen?
HĂ€ufige Fragen zur Berechnung der StichprobengröĂe bei A/B-Tests
Haben Sie noch Fragen zur Berechnung der StichprobengröĂe? Hier finden Sie die Antworten, die Sie suchen.
Warum ist die Berechnung der StichprobengröĂe bei A/B-Tests wichtig?
Die Berechnung der StichprobengröĂe stellt sicher, dass Ihr Test ĂŒber genĂŒgend Aussagekraft verfĂŒgt, um einen signifikanten Unterschied zwischen den Varianten festzustellen, ohne dabei Ressourcen zu verschwenden. Eine zu kleine Stichprobe kann zu falsch-negativen Ergebnissen fĂŒhren, wĂ€hrend eine zu groĂe Stichprobe ineffizient ist oder unnötig viele Nutzer einbezieht.
Welchen Ansatz sollte ich zur Berechnung des Stichprobenumfangs verwenden?
In der Regel verwendet man eine Leistungsanalyse, welche die erwartete EffektgröĂe, das Signifikanzniveau (α) und die gewĂŒnschte Aussagekraft (1âÎČ) berĂŒcksichtigt. Hilfsmittel wie Online-Rechner oder Statistiksoftware können dabei helfen; sie basieren je nach der gewĂ€hlten Metrik auf einer binomialen oder einer normalen NĂ€herung.
Wie bestimmt man den minimal nachweisbaren Effekt (MDE) fĂŒr einen A/B-Test?
Der MDE ist die kleinste VerĂ€nderung zwischen Ihrer Kontroll- und Ihrer Variantenversion, die Sie als praktisch signifikant erachten. Dieser Wert wird auf der Grundlage von GeschĂ€ftszielen, Basis-Konversionsraten und der von Ihnen angestrebten statistischen Aussagekraft berechnet â in der Regel, indem Sie festlegen, welcher Anstieg der Kennzahlen (z. B. Klickrate, Umsatz) die EinfĂŒhrung der neuen Version rechtfertigen wĂŒrde.
Ăber den Autor
Hubert Wassner
Hubert Wassner ist Chief Data Scientist bei AB Tasty, wo er ĂŒber ein Jahrzehnt Erfahrung in den Bereichen kĂŒnstliche Intelligenz und maschinelles Lernen in die Welt der Experimente einbringt. Mit seinem fundierten akademischen Hintergrund in Computerwissenschaften ist Hubert der leitende Entwickler der ausgeklĂŒgelten statistischen Modelle, auf denen die AB Tasty-Plattform basiert. Damit trĂ€gt er dazu bei, dass Marken wichtige Entscheidungen mit vollstem Vertrauen treffen können.
Er schreibt zudem regelmĂ€Ăig BeitrĂ€ge fĂŒr den AB Tasty-Blog, wobei er sich darauf konzentriert, komplexe datenwissenschaftliche Konzepte â von der Bayesâschen Statistik bis hin zur prĂ€diktiven KI â zu entmystifizieren und in praktische Strategien fĂŒr digitales Wachstum zu verwandeln. Mit dem Ziel, die Kluft zwischen anspruchsvoller Technik und praktischer GeschĂ€ftsanwendung zu ĂŒberbrĂŒcken, hilft Hubert Marken dabei, die technische Evolution des digitalen Zeitalters mit Klarheit, PrĂ€zision und einem Fokus auf menschenzentrierte Innovation zu meistern.










