• Idioma
A/B Testing

¿Qué piensa un científico de datos sobre Google Optimize?

by Hubert Wassner
Share on linkedin
Share on Linkedin
Share on facebook
Share on Facebook
Share on twitter
Share on Twitter

Nota: Este artículo fue inicialmente escrito por Hubert Wassnercientífico de datos jefe en AB Tasty.

Algunos de vosotros puede que hayáis visto el nuevo lanzamiento de una versión gratuita de Google Optimize y os hayáis preguntado si esto cambiará el mercado de las herramientas de testeo SaaS como AB Tasty.

La historia nos cuenta que cuando Google entra en un  mercado, los efectos son, a menudo disruptivos, especialmente cuando la herramienta es gratuita, como Google Analytics o Google Tag Manager. Para aclarar, esta nueva oferta será una versión gratuita de Google Optimise, con una versión Premium desde alrededor de 150.000$. Además, ten en cuenta que ni la versión gratuita ni la pagada ofrece testeo multipágina (por ejemplo, testeo de la consistencia a lo largo del embudo de conversión) y que Google Optimise no es compatible con aplicaciones nativas.

Antes de continuar, os informo de que soy el científico de datos jefe de AB Tasty, la solución europea líder para el A/B Testing y la personalización y, por lo tanto, es competencia directa de Google Optimize. Sin embargo, haré todo lo posible por ser justo en la comparación siguiente. No voy a listar y comparar todas las funcionalidades ofrecidas por ambas herramientas. En lugar de eso, me gustaría enfocarme en lo que concierne a los datos, después de todo, soy un científico de datos.

Para mí, la limitación principal de Google Optimize es que está basada en la infraestructura de Google Analytics y, por lo tanto, no tiene en cuenta la individualidad del usuario. Google se centra en las sesiones. Por defecto, la duración de una sesión está establecida en 30 minutos y solamente se puede extender a un máximo de 4 horas. Esto significa que si un usuario visita una página web dos veces con un día de por medio, o si visita la página primero por la mañana y luego por la tarde, Google Analytics lo considerará como dos usuarios distintos.

Esta forma de medir tiene dos consecuencias inmediatas:

  • Las tasas de conversión son mucho más bajas de lo que deberían ser. Quizás un poco molesto, pero podemos soportarlo.
  • El beneficio es mucho más complicado de medir. Este es el problema real.

Profundicemos en estas cuestiones…

Las tasas de conversión son mucho más bajas

La gente normalmente visita una página web varias veces antes de convertir. Para una conversión, Google Analytics (y por extensión Google Optimize) graba muchas sesiones diferentes, pero solamente la visita en la que el usuario convierte se considera como un “éxito”. El resto se consideran como “fracasos”. Consecuentemente, la tasa de conversión es más baja cuanto más grande sea el denominador. Para Google, la tasa de conversión se basa en visitas en lugar de en usuarios.

Podemos tolerar esta limitación si tomas decisiones basadas en valores relativos en lugar de valores absolutos. Al fin y al cabo, el objetivo del testeo consiste en medir la diferencia, sin importar el valor exacto. El modelo Bayesiano utilizado por Google para las estadísticas en Google Optimize (al igual que AB Tasty) hace esto muy bien. Puedes comprobarlo aquí: https://www.peakconversion.com/2012/02/ab-split-test-graphical-calculator/

Digamos, por ejemplo, que 10 usuarios vieron cada variación, 10 de ellos convirtieron en la versión A y 15 en la versión B.

screenshot1

Basándonos en estas hipótesis, la versión A es un 14% más probable de ser la mejor. Dicha tasa alcanza el 86% para la versión B.

Ahora, digamos que dichas conversiones suceden después de 2 visitas de media. El número de intentos se duplica y simula una tasa de conversión por sesión en lugar de por usuario.

screenshot2

Los resultados son muy similares ya que hay sólo un 1% de diferencia entre los dos experimentos. De modo que si el objetivo es ver si hay una diferencia sustancial entre las dos variaciones (pero no el tamaño de la diferencia), entonces tomar la sesión como valor de referencia funciona.

Nota: Esto es cierto siempre y cuando el número de visitas por usuario único se mantenga estable para todas las versiones, lo cual no es seguro que suceda.

Es imposible medir intervalos de confianza para la mejora con el enfoque por sesiones

Los intervalos de confianza para la mejora son cruciales al interpretar resultados y al tomar decisiones importantes. Predicen los mejores y peores escenarios que podrían suceder una vez que los cambios no se encuentren en un entorno de test.

Esta otra herramienta, también basada en las estadísticas bayesianas, ilustra la distribución de la mejora potencial: https://making.lyst.com/bayesian-calculator/

Los siguientes resultados están basados en la misma muestra que los anteriores:

  • 100 visitas, 10 conversiones en la versión A
  • 100 visitas, 15 conversiones en la versión B

graph1

Esta curva representa la distribución de la probabilidad del valor real de mejora asociado a la versión B.

El intervalo de confianza del 95% [ -0,05 ; +0,15 ], implica que con una tasa de fiabilidad del 95% el valor real de la mejora está entre -0,05 y +0,15.

Siendo el intervalo global positivo, podemos concluir lo mismo que anteriormente: La versión B es probablemente la versión ganadora, pero existen dudas.

Ahora digamos que existen dos visitas de media antes de que se produzca la conversión. El número de intentos se dobla, como anteriormente. Este es el tipo de datos que Google Optimize tendría.

Esta es la curva que muestra la distribución de la probabilidad del valor real de la mejora.

graph2

Esta distribución es mucho más estrecha que la otra, y el intervalo de confianza es mucho menor:  [ -0,025 ; +0,08 ]. Da la impresión de que es más preciso, pero, debido a que la muestra es exactamente la misma, no lo es. Cuanto mayor sea el número de sesiones que se realicen antes de una conversión, mayor será este efecto.

La razón de este problema es que el número de sesiones de un usuario único es desconocido y varía entre los distintos segmentos, modelos de negocio e industrias. Calcular un intervalo de confianza es, por lo tanto, imposible, aunque es esencial sacar conclusiones precisas.

Para concluir, el enfoque basado en sesiones promete identificar qué variación es la mejor pero no ayuda a estimar la mejora. Para mí esto es muy limitante.

Entonces, ¿por qué ha tomado Google esta «mala» decisión?

Para realizar un seguimiento a un usuario a través de distintas sesiones, Google tendría que guardar la información en sus servidores, lo cual representaría una gran cantidad de datos. Dado que Google Analytics es gratis, es muy posible que intenten ahorrar tanto espacio de almacenamiento como sea posible. Google Optimize se basa en Google Analytics, de modo que no sorprende que tomen la misma decisión para Google Optimize. No deberíamos esperar que esto cambie en un futuro cercano.

Yo diría que es muy posible que Google Optimize consiga una gran cuota de mercado con sitios web pequeños. Del mismo modo que eligen Google Analytics por su gratuidad, elegirán Google Optimize. Los sitios web más maduros tienden a ver la optimización de las tasas de conversión como un punto de inflexión y generalmente prefieren tecnología que puede ofrecerles más precisión, o lo que es lo mismo, resultados basados en usuarios únicos, clientes reales.

En general, la introducción de Google Optimize representa una gran oportunidad para el mercado en general. Debido a que la herramienta es gratuita, posiblemente acelerará el conocimiento sobre este tipo de herramientas y las habilidades en la industria digital. Quizás incluso el conocimiento general sobre estadística mejore. Cuando los responsables de marketing creen test y se den cuenta de que los resultados no siempre continúan fuera del entorno del test, puede que busquen soluciones más avanzadas y precisas.

Lanza tus funcionalidades de forma progresiva

Llevamos la optimización de experiencias a los equipos de producto y desarrolladores con nuestra nueva plataforma.