StichprobengröĂen fĂŒr A/B-Tests leicht berechnen
A/B-Tests helfen dabei, fundierte Entscheidungen auf Basis von Daten statt BauchgefĂŒhl zu treffen. Wie viele Besucher Sie fĂŒr eine Stichprobe benötigen, um diesen Ergebnissen vertrauen zu können, hĂ€ngt wiederum von verschiedenen Faktoren ab. Zum GlĂŒck stehen Ihnen heutzutage zahlreiche Online-Tools zur VerfĂŒgung, die diese Berechnung ĂŒbernehmen und den Prozess vereinfachen. Ein Mathematikstudium brauchen Sie nicht mehr.

So berechnen Sie die StichprobengröĂe
Die optimale StichprobengröĂe fĂŒr einen Test ist entscheidend, da sie Ihre gesamte Zielgruppe möglichst realistisch abbilden soll. Nur so werden die Ergebnisse belastbar und Sie vermeiden Fehlinterpretationen, wie etwa falsch-positive oder negative Resultate. Ist die Stichprobe zu klein, können die Ergebnisse stark verzerrt sein. Ist sie hingegen zu groĂ, investieren Sie unnötig Zeit und Ressourcen ohne zusĂ€tzlichen Erkenntnisgewinn.
Als grobe Faustregel gilt, dass pro Testvariante mindestens 10.000 Website-Besucher einbezogen sowie mindestens 300 Conversions erzielt werden sollten. Die exakte StichprobengröĂe lĂ€sst sich fĂŒr jede A/B-Testvariante mithilfe einer standardisierten mathematischen Formel berechnen, die wie folgt aussieht:

Die nachfolgende Ăbersicht erlĂ€utert, wofĂŒr die einzelnen Variablen in der Gleichung stehen:
- n ist die benötigte StichprobengröĂe pro Testvariante
- p1 ist die erwartete Konversionsrate vor einer VerÀnderung
- p2 ist die Konversionsrate, die um die absolute minimale EffektgröĂe erhöht wurde
- Zâș/2 ist der Z-Wert des Konfidenzniveaus
- ZÎČ ist der Z-Wert der TeststĂ€rke
Klingt kompliziert? Bevor Sie jetzt zum Mathebuch greifen, lassen Sie uns einen Blick darauf werfen, was die einzelnen Variablen im Detail bedeuten:
- Erwartete Konversionsrate: beschreibt die aktuelle Konversionsrate fĂŒr das Ziel, das Sie verbessern möchten. Das kann zum Beispiel die Anmelderate, die Kaufabschlussrate oder die Click-Through-Rate (CTR) sein.
- Minimale EffektgröĂe (MDE): steht fĂŒr die kleinste VerĂ€nderung der erwarteten Konversionsrate, die Sie mit statistischer Sicherheit nachweisen möchten. Sie bestimmt, wie sensibel Ihr A/B Testing auf VerĂ€nderungen reagiert.
- Konfidenzniveau: gibt an, wie wahrscheinlich es ist, dass der Unterschied zwischen Ihrer erwarteten Konversionsrate und der Konversionsrate einer Testvariante nicht zufÀllig entstanden ist. Als gÀngiger Standard gelten hierbei 95 Prozent. Der zugehörige Z-Wert liegt bei 1,96.
- TeststĂ€rke: beschreibt die Wahrscheinlichkeit, dass Ihr Test einen tatsĂ€chlich vorhandenen Effekt auch erkennt. Ăblicherweise wird hier mit 80 Prozent gearbeitet. Das bedeutet, Sie haben eine 80-prozentige Chance, eine echte Gewinner-Variante zu identifizieren. Der entsprechende Z-Wert betrĂ€gt 0,84.

Zum GlĂŒck gibt es inzwischen zahlreiche Online-Tools, die Ihnen diese Berechnungen abnehmen. In den meisten FĂ€llen reicht es aus, die zuvor genannten Variablen in die Tools einzugeben und Sie erhalten sofort eine verlĂ€ssliche EinschĂ€tzung.
Wichtig: Sowohl die minimale EffektgröĂe als auch die TeststĂ€rke beeinflussen die StichprobengröĂe eines Tests. Wenn Sie eine höhere TeststĂ€rke anstreben oder eine kleinere minimale EffektgröĂe festlegen, muss Ihre Stichprobe entsprechend gröĂer sein. Das wirkt sich wiederum auf die Laufzeit des Tests und den erforderlichen Ressourceneinsatz aus.
Irgendwann stellt sich daher die Frage, ob dieser zusÀtzliche Aufwand lohnenswert ist.
Verschiedene AnsÀtze zur Berechnung des Stichprobenumfangs
Viele Plattformen empfehlen, die StichprobengröĂe eines A/B-Tests erst in der Planungsphase direkt vor dem Test zu berechnen. Aus Sicht von AB Tasty ist das bereits zu spĂ€t. Es könnte sich herausstellen, dass die benötigte Stichprobe zu groĂ ist und der Test dadurch zu lange laufen wĂŒrde, um praktisch umsetzbar zu sein. In solchen FĂ€llen lohnt es sich schlicht nicht, die Testvariante ĂŒberhaupt zu erstellen.
Aus diesem Grund hat AB Tasty einen MDE-Rechner entwickelt, der bereits vor der eigentlichen Testplanung ansetzt. Damit können Sie frĂŒhzeitig abschĂ€tzen, welche minimale EffektgröĂe erforderlich ist und wie lange ein Experiment basierend auf Ihren realen historischen Daten laufen mĂŒsste, um das Konfidenzniveau zu erreichen. So arbeiten Sie von Anfang an mit realistischen Erwartungen.
Die Nutzung unseres MDE-Rechners ist unkompliziert:
Eingeben
Erwartete Konversionsrate definieren
Geben Sie Ihre aktuellen Website-Besucherzahlen sowie die Konversionsrate fĂŒr das Ziel ein, das Sie verbessern möchten.
Berechnen
Chancen identifizieren
Der Rechner schĂ€tzt die fĂŒr das Konfidenzniveau erforderliche MindesteffektgröĂe. Sie sehen, wie viele Tage es dauert, bis Ihr Konfidenzniveau erreicht ist.
Starten
Verlust vermeiden
Verschwenden Sie keine Zeit und Ressourcen fĂŒr Tests, die voraussichtlich keine schlĂŒssigen oder statistisch signifikanten Ergebnisse liefern werden.
AuĂerdem steht Ihnen ein Rechner fĂŒr StichprobengröĂen zur VerfĂŒgung. Damit können Sie die benötigte Anzahl an Website-Besuchern fĂŒr Ihren Test bestimmen. Sie können darĂŒber hinaus abschĂ€tzen, wie lange Ihr Test laufen sollte, um die gewĂŒnschten Ergebnisse zu erzielen. Dieses Tool ist ideal fĂŒr laufende Tests, weniger fĂŒr die Planungsphase vor einem Test.
So schÀtzen Sie die Zahl der Website-Besucher ein:
- Sie geben die aktuelle Konversionsrate fĂŒr das Ziel ein, das Sie verbessern möchten, sowie die erwartete minimale EffektgröĂe zwischen den Testvarianten.
- Unser Rechner schÀtzt dann die erforderliche Anzahl an Website-Besuchern pro Testvariante.
So berechnen Sie die Dauer Ihres A/B-Tests:
- ZusĂ€tzlich zu den im vorherigen Schritt eingegebenen Informationen fĂŒgen Sie die durchschnittliche Anzahl der tĂ€glichen eindeutigen Website-Besucher (Unique Visitors) einer getesteten Seite sowie die Gesamtzahl der Testvarianten einschlieĂlich der Kontrollversion hinzu.
- Unser Rechner schĂ€tzt dann die minimal erforderliche Testdauer in Tagen, um die gewĂŒnschten Ergebnisse zu erzielen. Dabei gibt es jedoch einen wichtigen Punkt zu beachten, den wir im nĂ€chsten Abschnitt erlĂ€utern.
Best Practices und Fallstricke
Sehen wir uns nun einige der wichtigsten Dos und Donâts an, die Sie bei der Berechnung der Testdauer und des Stichprobenumfangs beachten sollten.
1. Testen Sie fĂŒr mindestens 14 Tage
Selbst wenn Sie Ihre erforderliche StichprobengröĂe bereits nach wenigen Tagen erreichen oder der Rechner eine kĂŒrzere Testdauer nahelegt, gilt es als Best Practice, einen A/B-Test mindestens zwei Wochen laufen zu lassen. So werden Schwankungen im Nutzerverhalten besser ausgeglichen, etwa Unterschiede zwischen Wochentagen und Wochenenden. Ihre Datenbasis wird dadurch deutlich belastbarer.
2. BerĂŒcksichtigen Sie externe Faktoren wie saisonale Schwankungen
Bestimmte Zeitpunkte im Jahr, etwa Weihnachten, Ostern oder lange Wochenenden, können Ihre Ergebnisse stark verzerren. Wenn Ihre Stichprobe Ihre Zielgruppe realistisch abbilden soll, berĂŒcksichtigen Sie solche Sondereffekte bei Ihren TestlĂ€ufen.
3. Beenden Sie Tests nicht zu frĂŒh
Sie sollten auĂerdem der Versuchung widerstehen, Tests bereits vor Erreichen der geplanten Testdauer oder StichprobengröĂe auszuwerten. Andernfalls steigt das Risiko fĂŒr falsche Schlussfolgerungen.
Unser KI-Agent âEvi Analysisâ stĂŒtzt sich auf das Konfidenzniveau, um eine Gewinner-Variante zu ermitteln. Damit er seine Aufgabe korrekt erfĂŒllen kann, sollte Evi erst dann Ergebnisse interpretieren, wenn der Test die vom StichprobengröĂen-Rechner empfohlene Besucherzahl erreicht hat.
Denn: Evi Analysis kann nicht wissen, dass Sie ursprĂŒnglich eine StichprobengröĂe von zum Beispiel 100.000 Website-Besuchern geplant hatten, sich danach aber entschieden haben, den Test nach nur 10.000 Besuchern zu beenden.
4. ĂberprĂŒfen Sie die Machbarkeit
Auch wenn Testergebnisse statistisch signifikant sein sollten, bedeutet das nicht automatisch, dass sie fĂŒr Ihr Unternehmen einen praktischen Nutzen haben. Eine Ănderung, die aus Testergebnissen abgeleitet wurde, kann so kostspielig sein, dass es sich möglicherweise gar nicht erst lohnt, den Test durchzufĂŒhren.
5. Legen Sie den Fokus auf Seiten mit hohem Traffic
Zu Beginn sollten Sie Ihre Tests auf die Seiten Ihrer Website konzentrieren, die den meisten Traffic erhalten. Dazu zĂ€hlen beispielsweise die Startseite, Kategorieseiten (PLPs) und Produktseiten (PDPs). Durch das höhere Besucheraufkommen auf diesen Seiten sammeln Sie schneller ausreichend Daten und bringen Ihre Tests zĂŒgiger zum Abschluss.
6. Begrenzen Sie die Anzahl der Varianten
Das gleichzeitige Testen mehrerer Varianten mag effizient erscheinen, erhöht jedoch das Risiko von falsch-positiven Ergebnissen. Wenn Sie Tests auf Seiten mit geringem Besucheraufkommen durchfĂŒhren, ist es daher sinnvoll, mit weniger Varianten zu arbeiten. So vermeiden Sie, dass sich die Stichprobe auf zu viele Testgruppen verteilt und die Ergebnisse an Aussagekraft verlieren.
7. Stellen Sie Ihre Tests möglichst breit auf
FĂŒhren Sie nach Möglichkeit A/B-Tests in mehreren LĂ€ndern oder Marktsegmenten durch, um den Stichprobenumfang zu vergröĂern.
Fazit: Von wagen Vermutungen zu konkretem Wachstum
Die Berechnung der richtigen StichprobengröĂe fĂŒr Ihre A/B-Tests ist der SchlĂŒssel zu verlĂ€sslichen, statistisch signifikanten Ergebnissen. Und das Beste: Um Ihre StichprobengröĂe zu ermitteln, mĂŒssen Sie heutzutage kein Mathegenie mehr sein.
Nutzen Sie unseren MDE-Rechner fĂŒr die Planungsphase Ihrer Tests und halten Sie sich an die Best Practices fĂŒr StichprobengröĂe und Testdauer. So stellen Sie sicher, dass Ihre A/B-Tests sowohl effektiv als auch zuverlĂ€ssig sind.
Sind Sie bereit, das Rechnen hinter sich zu lassen und mit der Umsetzung zu beginnen?
HĂ€ufige Fragen zur Berechnung der StichprobengröĂe bei A/B-Tests
Haben Sie noch Fragen zur Berechnung der StichprobengröĂe? Hier finden Sie die Antworten, die Sie suchen.
Warum ist die Berechnung der StichprobengröĂe bei A/B-Tests wichtig?
Die Berechnung der StichprobengröĂe stellt sicher, dass Ihr Test ĂŒber genĂŒgend Aussagekraft verfĂŒgt. Es sollte ein signifikanter Unterschied zwischen den Varianten festgestellt werden, ohne dabei Ressourcen zu verschwenden. Eine zu kleine Stichprobe kann zu falsch-negativen Ergebnissen fĂŒhren, wĂ€hrend eine zu groĂe Stichprobe ineffizient ist oder unnötig viele Nutzer einbezieht.
Welchen Ansatz sollte ich zur Berechnung des Stichprobenumfangs verwenden?
In der Regel verwendet man eine Leistungsanalyse, welche die erwartete EffektgröĂe, das Konfidenzniveau (α) und die gewĂŒnschte TeststĂ€rke (1âÎČ) berĂŒcksichtigt. Hilfsmittel wie Online-Rechner oder Statistiksoftware können dabei helfen; sie basieren je nach der gewĂ€hlten Metrik auf einer binomialen oder einer normalen NĂ€herung.
Wie bestimmt man die minimale EffektgröĂe (MDE) fĂŒr einen A/B-Test?
Die MDE ist die kleinste VerĂ€nderung zwischen Ihrer Kontroll- und Ihrer Variantenversion, die Sie als praktisch signifikant erachten. Dieser Wert wird auf der Grundlage von GeschĂ€ftszielen, erwarteten Konversionsraten und der von Ihnen angestrebten TeststĂ€rke berechnet. In der Regel legen Sie fest, welcher Anstieg der Kennzahlen (z. B. Klickrate/CTR, Umsatz) die EinfĂŒhrung der neuen Variante rechtfertigen wĂŒrde.
Ăber den Autor
Hubert Wassner
Hubert Wassner ist Chief Data Scientist bei AB Tasty, wo er seit ĂŒber einem Jahrzehnt seine Erfahrung in KĂŒnstlicher Intelligenz und Maschinellem Lernen in die Welt der Experimente einbringt. Mit seinem fundierten akademischen Hintergrund in Computerwissenschaften ist Hubert der leitende Entwickler der ausgeklĂŒgelten statistischen Modelle, auf denen die AB Tasty-Plattform basiert. Damit trĂ€gt er dazu bei, dass Marken wichtige Entscheidungen mit vollstem Vertrauen treffen können.
Er schreibt zudem regelmĂ€Ăig BeitrĂ€ge fĂŒr den AB Tasty-Blog. Hier liegt sein Fokus darauf, komplexe datenwissenschaftliche Konzepte wie die Bayesâsche Statistik oder prĂ€diktive KI verstĂ€ndlich zu erklĂ€ren und in praktische Strategien fĂŒr digitales Wachstum zu verwandeln. Mit dem Ziel, die Kluft zwischen anspruchsvoller Technik und praktischer GeschĂ€ftsanwendung zu ĂŒberbrĂŒcken, hilft Hubert Marken dabei, die technische Evolution des digitalen Zeitalters mit Klarheit, PrĂ€zision und einem Fokus auf menschenzentrierte Innovation zu meistern.









