Dit artikel is geschreven door Hubert Wassner, Chief Data Scientist bij AB Tasty.

Sommigen van jullie hebben wellicht opgemerkt dat Google een recente release had met een gratis versie van Google Optimize. Sommigen hebben zichzelf wellicht ook afgevraagd of het de markt zal veranderen voor SaaS testmiddelen, zoals AB Tasty?

Om te beginnen vertelt de geschiedenis ons dat wanneer Google een markt betreedt, de effecten vaak verstorend zijn – vooral wanneer een middel gratis is, net als met Google Analytics en Google Tag Manager. Voor alle duidelijkheid, dit nieuwe aanbod zal een gratis versie zijn van Google Optimize, met daarbij een premium-versie die begint bij ongeveer $150.000 per jaar. Wat nodig te vermelden is, is dat zowel de betaalde versie van Google Optimize als de gratis versie niet multi-page testen aanbiedt (dat wil zeggen, testconsistentie in een trechter bijvoorbeeld) en dat Google Optimize niet compatibel is met oorspronkelijke applicaties.

Voordat je verder gaat, een disclaimer: ik ben een Chief Data Scientist bij AB Tasty, de toonaangevende Europese oplossing voor A/B testen en personalisatie en daarom ook in directe concurrentie met Google Optimize. Toch zal ik mijn best doen om eerlijk te zijn in de volgende vergelijking. Ik ga niet alle aangeboden features benoemen en vergelijken. In plaats daarvan wil ik graag focussen op de data kant – ik ben tenslotte een Data Scientist..!

Laten we er dieper op in gaan:

Voor mij is de eerste en belangrijkste beperking van Google Optimize dat het is gebaseerd op de infrastructuur van Google Analytics. Het zal dus niet rekening houden met de uniekheid van een bezoeker. Google kijkt naar sessies. Standaard wordt een sessietijd gezet op 30 minuten en kan het worden uitgebreid tot slechts 4 uur. Dit betekent dat wanneer een bezoeker een website tweemaal bezoekt met een dag ertussen of wanneer de bezoeker de website voor het eerst bezoekt in de ochtend en voor de tweede keer in de avond, Google Optimize twee verschillende bezoekers ziet.

Deze wijze van tellen heeft twee onmiddellijke gevolgen:

  • Conversiepercentages zijn veel lager dan ze zouden moeten zijn. Misschien een beetje vervelend, maar we kunnen daarmee omgaan.
  • Voordelen zijn veel moeilijker te meten. Dit is nou een echt probleem!

Laten we het eens beter bekijken…

Conversiepercentages zijn veel lager

Mensen zullen normaal gesproken een website meerdere keren bezoeken voordat er wordt geconverteerd. Voor één conversie registreert Google Analytics (en bij uitbreiding Google Optimize) verschillende sessies. Alleen het bezoek waarbij de bezoeker geconverteerd wordt, wordt het opgenomen als een ‘succes’. Alle anderen worden beschouwd als mislukkingen. Bijgevolg is het succespercentage dat lager is als de noemer groeit. Voor Google is een conversiepercentage gebaseerd op het bezoeken in plaats van de bezoekers.

Het is mogelijk om te werken met deze beperking zolang je beslissingen worden gemaakt op basis van relatieve waardes in plaats van absolute waardes. Immers, het doel van het testen is allereerst om het verschil te meten, ongeacht de precieze waarde. Het Bayesiaanse model voor statistieken die gebruikt wordt door Google Optimize (en door AB Tasty) doet dit gelukkig heel goed. Je kunt het hier testen: https://www.peakconversion.com/2012/02/ab-split-test-graphical-calculator/

Stel dat elke variatie 100 bezoekers zag en dat er 10 zijn geconverteerd op A en 15 op B.

screenshot1

Op basis van deze hypotheses is de kans dat Versie A beter is 14%, terwijl het percentage bij Versie B de 86% bereikt.

Stel dat de bovenstaande conversies optreden na gemiddeld twee bezoeken. Het verdubbelt het aantal trials en het simuleert het conversiepercentage per sessie in plaats van per bezoeker.

screenshot2

De resultaten zijn zeer gelijkwaardig, omdat er slechts 1% verschilt tussen de twee experimenten. Dus, als het doel is om te kijken of er een significant verschil is tussen de twee varianten (maar niet de grootte van het verschil), dan kan het nemen van de sessie als referentiewaarde prima werken.  

NB: Deze conclusie blijft goed zolang het aantal bezoeken per unieke bezoeker stabiel is bij alle varianten – wat niet vaststaat.

Het is onmogelijk om betrouwbaarheidsintervallen als versterking te meten met de sessieaanpak

Betrouwbaarheidsintervallen als versterking zijn van cruciaal belang bij het interpreteren van de resultaten en bij het maken van beslissingen. Ze voorspellen de slechtst mogelijke en de best mogelijke scenario’s die kunnen optreden wanneer veranderingen niet langer in een testomgeving zijn.

Het is een ander hulpmiddel, ook gebaseerd op Bayesiaanse statistieken, die de potentiële winst van de distributie laten zien: https://making.lyst.com/bayesian-calculator/

Zie onderstaande resultaten voor hetzelfde sample als zojuist:

  • 100 bezoeken, 10 successen bij Variant A
  • 100 bezoeken, 15 successen bij Variant B

graph1

Deze curve laat de kansverdeling van de werkelijke waarde zien die gelinkt is met variant B.

De 95% betrouwbaarheidsinterval is [ -0.05 ; +0.15 ], wat betekent dat met een 95% betrouwbaarheidspercentage de werkelijke waarde zich bevindt boven de -0.05 en onder de +0.15.

Het interval positief zijnde, kunnen we dezelfde conclusie als zojuist trekken: B is waarschijnlijk de winnende variant, maar er zijn twijfels.

Stel dat er 2 bezoeken zijn voor de gemiddelde conversie. Het aantal trials wordt verdubbeld, net als voorheen – dit is het soort data dat Google Optimize zou hebben.

Hier is de lijn die de kansverdeling van de werkelijke waarde als versterking laat zien.

graph2

Deze verdeling is veel smaller dan de andere en de betrouwbaarheidsinterval is veel kleiner: [ -0.025 ; +0.08]. Het geeft de indruk dat het preciezer is – maar als de sample precies hetzelfde is, is dat het niet! Des te groter het aantal sessies voor conversie, des te meer dit effect zou opvallen.

De oorzaak van het probleem is dat het aantal sessies voor een unieke bezoeker onbekend is en dat het varieert tussen segmenten, businessmodellen en industrieën. Het berekenen van een betrouwbaarheidsinterval is dus onmogelijk – terwijl het van essentieel belang is dat we de juiste conclusies trekken.

Tot slot, de sessie-gebaseerde aanpak belooft de beste variant te identificeren, maar het helpt niet met het schatten van de voordelen. Voor mij is dit zwaar beperkend.

Waarom heeft Google dan deze (slechte) keuze gemaakt?

Om een bezoeker te kunnen volgen over meerdere sessies, zou Google de informatie moeten opslaan op de server en het zou een enorme hoeveelheid data presenteren. Gezien het feit dat Google Analytics gratis is, is het zeer waarschijnlijk dat ze zoveel mogelijk opslagruimte proberen te besparen. Google Optimize is gebaseerd op Google Analytics, dus het is geen verrassing dat ze dezelfde beslissing hebben gemaakt voor Google Optimize. We moeten niet verwachten dat dit snel gaat veranderen.

Ik zou zeggen dat Google Optimize zeer waarschijnlijk een aanzienlijk marktaandeel verkrijgt met kleine websites. Net als ze gekozen hebben voor Google Analytics, zullen ze gaan voor Google Optimize en giften. Meer volwassen websites hebben de neiging om de conversie optimalisatie te zien als een game changer en geven over het algemeen de voorkeur aan technologie die meer nauwkeurigheid kan bieden –  resultaten gebaseerd op basis van unieke bezoekers, echte klanten.

Over het algemeen biedt de introductie van Google Optimize een grote kans aan voor de markt als geheel. Aangezien het middel gratis is, zal het waarschijnlijk bewustwording versnellen en de vaardigheden optimaliseren over de gehele digitale industrie. Misschien zal zelfs het algemene begrip van statistieken toenemen! Als marketeers de tests op hun plaats zetten en gaan realiseren dat resultaten niet altijd volgen buiten de testomgeving, kunnen ze heel goed op zoek gaan naar meer geavanceerde en preciezere oplossingen.