Recientemente, uno de nuestros clientes probó la calculadora de Kissmetrics para ver una comparación entre los resultados mostrados en AB Tasty y los que le ofrecía Kissmetrics. Para su sorpresa, se encontró con dos resultados completamente distintos para los mismos datos.

He aquí un ejemplo:

VariaciónUsuarios que ven la variaciónUsuarios que conviertenTasa de conversión
A10,2991,43913.97%
B10,5051,49514.23%

 

Dado los números anteriores, a simple vista parece que la versión B está ganando, pero, la pregunta es si está ganando porque es mejor o debido al azar.

Esto es precisamente lo que determinan los algoritmos estadísticos del A/B testing. ¿Cuál es la probabilidad de que un resultado se deba al azar? o lo contrario, ¿cuál es la probabilidad de que los resultados estén mostrando la realidad?

En este test, el algoritmo de AB Tasty muestra una tasa de confianza del 70,4%, la cual, nuestro cliente decidió comparar con otras herramientas online como splittestcalculator.com y getdatadriven.com (la segunda operada por Kissmetrics, una fuente de información bastante fiable). En la siguiente tabla ofrecemos algunos otros recursos.

HerramientaTasa de fiabilidad
AB Tasty70.02%
Split Test Calculator42.23%
Get Data Driven70%
Hubspot70.43%
Evan Miller’s calculator41%

¿Por qué hay diferencias?

Las diferencias se deben a que se están usando dos métodos distintos de cálculo: el método chi-cuadrado da un 42% mientras que el enfoque Bayesiano da un 70,43%.

Elegir un método al azar parece un poco arbitrario, así que, profundicemos un poco más.

Para ponerlo de forma sencilla, hay dos cosas a tener en cuenta cuando se hace una apuesta:

  • La probabilidad de que haya una diferencia (A gane a B)
  • La mejora (A es un 20% mejor que B)

Cada método de cálculo usa estos parámetros pero le asigna distinta importancia, lo que lleva a resultados diferentes. El método de chi-cuadrado solo tiene en cuenta la probabilidad de una diferencia, mientras que el método Bayesiano se basa tanto en la probabilidad de la mejora como de la pérdida.  Lo cierto es que ambos métodos son correctos, pero diferentes.

 

¿Cómo tomar decisiones informadas?

En la mayoría de los casos, centrarse solo en una fuente de información para determinar la diferencia entre dos variaciones lleva a tomar malas decisiones” dice Hubert Wassner, analista de datos jefe de AB Tasty, “es como decir que Usain Bolt gana la carrera”

bolt
Usain Bolt gana la carrera

bolt2
Usain Bolt gana por una gran diferencia

La primera imagen muestra cómo Bolt recoje su premio por haber ganado la carrera y la segunda muestra por cuánto ha ganado la carrera, es decir, la diferencia entre él y el siguiente corredor. Debido a lo adelantado que se encontraba al cruzar la línea de meta con respecto al siguiente atleta, Bolt probablemente gane también la siguiente carrera.

Lo mismo se puede aplicar para el A/B testing: las estadísticas Bayesianas ofrecen una estimación de la mejora potencial (o el empeoramiento), mientras que las estadísticas de chi-cuadrado se limitan a ofrecer una tasa de confianza.

results-bayesian
El informe de AB Tasty muestra unos límites minimos y máximos en la mejora.

Las tasas de conversión (aquí del 13,98% y 14,24%) y mejora (1,89%) tal y como se muestran en la mayoría de herramientas de testing, dan la impresión de que están relacionadas con la tasa de fiabilidad. En realidad, solo están indicando las tasas de conversión empíricas en ese momento. Las tasas de conversión “reales” permanecen desconocidas.

La información más valiosa reside en los límites de la mejora, en este caso entre el -4,8% y el 8,85%. Deberían leerse de la siguiente manera: con una confianza del 95%, el valor real de la mejora está entre un -4,8% y un 8,85%. Cuanto más alto sea el límite inferior, más segura será la decisión.

En conclusión, la tasa de confianza solo ofrece una indicación de cuándo es el momento para tomar una decisión y los límites indican qué decisión se debería tomar. Necesitas una combinación de ambos para tener las mejores predicciones en base a los resultados de tus test.