Onlangs heeft een klant van ons de KISSmetrics’ significante calculator geprobeerd om hun testresultaten te zien in vergelijking met hoe die zijn weergegeven bij AB Tasty. Wat een verrassing wanneer ze erachter kwamen dat ze twee totaal verschillende resultaten kregen, voor exact dezelfde data!

Hier is een voorbeeld:

VariatieBezoekers verdeeld per variatieGeconverteerde bezoekersConversie percentage
A10,2991,43913.97%
B10,5051,49514.23%

 

Gezien de tabel hierboven blijkt dat variatie B gewonnen heeft van variatie A – op het eerste gezicht. De vraag is: is variant B ook echt beter aan het presteren dan variant A, of is het gewoon een kwestie van toeval?

Dit is precies wat statistische algoritmes in A/B testing proberen te bepalen. Hoe groot is de kans dat het resultaat te wijten is aan toeval? Of andersom, hoe groot is de kans dat het resultaat daadwerkelijk de werkelijkheid is?

In deze test laat AB Tasty’s algoritme een confidence percentage zien van 70,4%, wat onze klant deed besluiten om het te vergelijken met andere online tools, zoals splittestcalculator.com en getdatadriven.com (waarbij de laatste aangedreven is door KISSmetrics – een vrij betrouwbare bron van informatie!). In de onderstaande tabel, nemen we een groter aantal bronnen mee.

ToolConfidence percentage
AB Tasty70.02%
Split Test Calculator42.23%
Get Data Driven70%
Hubspot70.43%
Evan Miller’s calculator41%

Waarom is er een verschil?

Kijk, we praten over twee verschillende methoden voor de berekening: de chi-kwadraat methode geeft 42%, terwijl de Bayesiaanse methode een percentage geeft van 70,43%.

Het kiezen van een methode boven de andere is willekeurig, dus laten we een beetje dieper erop ingaan (blijf dus lezen, want er is geen behoefte aan een diploma in astrofysica!).

Om het eenvoudig te maken: er zijn twee dingen te overwegen bij het plaatsen van een weddenschap:

  • De kans dat er een verschil is (A verslaat B)
  • De winst (A is 20% beter dan B)

Calculatiemethoden nemen deze parameters toe zich, maar geven ze wel verschillende waardes, wat dus leidt tot verschillende resultaten. De chi-kwadraat methode neemt slechts de kans dat er een verschil is in aanmerking, terwijl de Bayesiaanse methode is gebaseerd op zowel de kans als de winst (of verlies).

Bottom line: beide zijn correct, hoewel ze verschillend zijn.

Hoe moet ik een weloverwogen beslissing maken?

“IIn de meeste gevallen, als je de nadruk legt op een enkele bron van informatie om de verschillende tussen twee variaties te zien, leidt dit vaak tot het maken van een blinde beslissing,” zegt AB Tasty’s Chief Data Scientist Hubert Wassner. “Het is hetzelfde als zeggen dat Usain Bolt een race gewonnen heeft.”

bolt
Usain Bolt wint de wedstrijd
bolt2
Usain Bolt wint met speels gemak

De eerste afbeelding laat zien dat Bolt de eerste prijs gewonnen heeft, de tweede afbeelding laat zien met hoeveel marge hij de wedstrijd gewonnen heeft. Gezien het feit dat hij zoveel voorsprong heeft bij het overschrijden van de finishlijn, is de kans dat Bolt de volgende race wint zeer waarschijnlijk.

Hetzelfde geldt voor A/B testing: de Bayesiaanse statistieken bieden je een schatting van de potentiële winst (of verlies), terwijl de chi-kwadraat statistiek vasthoudt aan het verstrekken van alleen het confidence percentage.

results-bayesian
AB Tasty report geeft de boven- en ondergrens van de winst

Conversiepercentages (hier 13,98% en 14,24%) en de winst (1,89%) worden weergegeven als dit in de meeste test tools, zodat ze de indruk geven dat ze zijn gerelateerd aan het betrouwbaarheidspercentage. Eigenlijk geven ze alleen een indicatie van de empirische conversiepercentages van de huidige tijd. De “echte” conversiepercentages blijven onbekend.

De meest waardevolle informatie hier zijn de grenzen rond de winst (-4,8% en +8,85%). Die moeten worden gezien als volgt: met een confidence percentage van 95% is de werkelijke waarde van de winst ergens tussen -4,8% en +8,85%. Hoe hoger de ondergrens, hoe veiliger de beslissing is.

Bottom line: het confidence percentage geeft slechts een indicatie van wanneer het tijd is om een beslissing te nemen (er is een verschil tussen twee variaties en het is niet te wijten aan toeval) en de grenzen geven een indicatie aan hoe de beslissing moet worden genomen. Je hebt een combinatie van beide nodig om tot de beste voorspelingen van de testresultaten te komen en de waardige variaties van Usain Bolt te kunnen spotten.