¿Por qué será? Recordáis que acabamos con este cliffhanging la primera temporada de #Predictive Modelling Tools, ¿verdad?
Resulta que, en contadas ocasiones (esta es una de ellas), los mensajes de error realmente nos dan información útil. Si leemos éste atentamente, nos está diciendo algo muy sencillo: que no consigue predecir nada con los predictores que hemos elegido. Se me ocurre ir quitando predictores por el orden de importancia que establecimos anteriormente. Eliminamos Profit, pero sigue sin funcionar; eliminamos Sales, y ¡EUREKA! ¡Tenemos nuestro primer modelo!
No hay que ser un experto en estadística para ser capaz de leer este boxplot. Simplemente observando la imagen superior, podemos sacar el máximo (0.9986) y el mínimo (0.0007); el primer (0.7877) y el tercer cuartil (0.1557); y la mediana (0.4786) de este valor probabilístico que indica la frecuencia con la que Shipping Time se corresponde con el valor esperado/predicho de Predicted Shipping Time.
Uno de los usos más interesantes de este tipo de gráficos scatterplot es el de la detección de outliers. Al final, éstos serán los que nos darán más información acerca de los casos excepcionales a los que deberemos prestar especial atención si estamos llevando un negocio, pues necesitarán una estrategia de captación, UX o fidelización especial. Aquí, como podéis ver, los mercados que obtienen resultados diferentes de los esperados son la región Sur (Shipping Time por debajo de la media) y la Norte para los pedidos pequeños (tiempos por encima de la media); por el contrario, la región Central podría servirnos de ejemplo de best-practices que aplicar a las demás.
Otra utilidad a la que sacaréis partido es colocar nuestro campo Predicted Shipping Time en la marca de Color, cuando comparamos la relación entre otros dos campos que no entraban en el cálculo. Los más típicos: Sales y Profit.
Lo mejor de esta técnica es que, de un solo vistazo, nos revela mucha información de, como mínimo, tres variables: Sales, Profit y Predicted Shipping Date; y, como máximo, tantas como predictores (si recordáis la gráfica anterior, vimos que los pedidos para la región Centro son los que más se acercan a la media, es decir, los más predecibles, por lo que también obtenemos información acerca de la región; si el punto es rojo, presumiblemente será Sur o Centro, y si es verde, Norte.)
Nos llama inmediatamente la atención esa marca de color rosita en la esquina superior derecha. El que por méritos propios (elevadísimas ventas y beneficios) señalamos como nuestro producto estrella, parece que también lo clava en cuanto al tiempo de entrega, ¡pues está muy por debajo de la media! Well done, hornillo plateado para la playa, modelo Hamilton. Sin embargo, el puntito situado justo a su izquierda, no lo está habiendo tan bien… Igualmente entre los mejores por sus altas ventas y beneficios, parece que tarda en llegar al comprador más que la media. Huele a clientes insatisfeeechos… ¿Qué haces que no corres a solucionarlo?