96 387 70 69

Lo que debes saber si aplicas estadística a tus previsiones. Cuando la estadística juega al azar.

Estadística para previsión de ventas

Infraajuste y sobreajuste en los pronósticos de ventas

Realizar pronósticos de ventas con técnicas cuantitativas consiste en prever cuánto se va a vender de un producto partiendo de unos datos conocidos, normalmente el histórico de ventas. Es decir, aplicar estadística a tus previsiones. Estos datos se generalizan mediante modelos matemáticos de forma que, conociendo lo que ha pasado en los periodos {1,…,n}, se prevé lo que pasará en los periodos {n+1,…,n+m}, donde m es el número de periodos pronosticados.
Cuando se aplican estos modelos predictivos es fácil caer en problemas de infraajuste o sobreajuste (underfitting o overfitting) que están tan de moda ahora con el auge del Machine Learning.
En este post vamos a analizar el porqué de estos problemas en el cálculo de pronósticos y veremos como evitarlos.

Infraajuste

El infraajuste se produce cuando el modelo no es capaz de representar los datos existentes y en consecuencia tampoco es capaz de generalizarlos para realizar buenos pronósticos. Las causas más comunes son:

Falta de datos

Imaginemos que tenemos los siguientes datos del histórico de ventas de un artículo, donde cada valor representa las ventas de un mes: 40, 30, 20, 10
¿Cuánto vamos a vender el mes siguiente? Viendo la tendencia de la serie, parece que la respuesta es clara, no venderemos nada.
Pero, ¿qué pasaría si esos datos representarán las ventas de un producto dietético en los meses desde septiembre hasta diciembre?
Después de las comilonas de navidades y con unos propósitos de año nuevo tan ambiciosos, ¿de verdad seguimos pensando que no se va a vender nada en enero? La respuesta parece que ya no está tan clara.
Por tanto, con este ejemplo tan sencillo se pone de manifiesto la necesidad de tener un conjunto de datos lo suficientemente grande para que los modelos nos proporcionen los resultados deseados. Ya que en este caso ningún modelo hubiera sido capaz de prever que en enero se dispararían las ventas.
Desgraciadamente, la falta de datos es algo que normalmente no podemos cambiar. En estos casos lo más recomendable es dejar de lado el uso de modelos matemáticos y optar por técnicas cualitativas, basadas en la intuición, experiencia, estudio del mercado …

Modelo demasiado simple

Otro error muy habitual es el de utilizar modelos demasiado sencillos que son incapaces de captar la variabilidad de los datos.

 

En este ejemplo se está utilizando una regresión lineal para hacer pronósticos sobre una serie que sigue un crecimiento cuadrático. Por eso, como vemos en la gráfica, el pronóstico se queda muy lejos del valor real, algo que no pasaría si por ejemplo se hubiera aplicado una regresión cuadrática.

Sobreajuste

El sobreajuste se produce cuando el modelo captura todo lo que pasa en los datos, pero pierde el foco de lo que es realmente importante. Veamos sus principales causas.

Valores anómalos

Son valores que no deberían tenerse en cuenta ya que se han obtenido por una situación especial que a priori no debería repetirse. Por ejemplo, en marzo de 2020 se dispararon las ventas de papel higiénico. Si consideramos este dato para parametrizar el modelo se podrían alterar notablemente los resultados. Sin embargo, se trata de algo puntual que no habría que considerar. Por tanto, es recomendable realizar una limpieza previa de los datos para evitar este tipo de problemas.

Modelo demasiado complejo

Con el afán de conseguir un modelo que se ajuste perfectamente a los datos se puede caer en el error de utilizar un modelo excesivamente complejo.

Aquí vemos como utilizando la regresión polinómica de grado 6 el modelo captura toda la variabilidad de los datos, sin embargo, falla estrepitosamente en el pronóstico. El problema es que el modelo se ha perdido en el “ruido” pero no ha captado lo realmente importante, que en este caso era que en los últimos periodos la serie seguía una tendencia creciente.

Conclusión

En el cálculo de pronósticos es fácil caer en problemas de infraajuste y de sobreajuste. Para evitarlos habrá que asegurar que los datos de entrada son adecuados, es decir, que haya suficientes datos y que estos no contengan valores anómalos.
Además, habrá que elegir un modelo lo suficientemente complejo para ajustarse a los datos, pero no tanto como para que termine perdiéndose en el ruido y se aleje del objetivo final de generalizar lo que está pasando para poder hacer buenas predicciones.

En definitiva, si no somos expertos en la materia, antes de lanzarnos a aplicar estadística a nuestras previsiones, es mejor dejarnos asesorar por especialistas, que nos aconsejen sobre los mejores modelos para la naturaleza de nuestros datos, y la mejor forma de conseguir unos buenos pronósticos.