Mejora de la predicción de la curva de tallas
tipo de documento semantico ckh_publication
Ficheros
Resumen
Debido a la dificultad a la hora de realizar la distribución en el mundo del retail se busca crear un modelo de regresión que optimice esta decisión, ya que los algoritmos actuales, en determinadas situaciones, no contemplan todos los casos.
Alguna de las herramientas usadas han sido, databricks, el cual implementa MLflow, Mllib, que es la librería para aplicar modelos de machine learning con pySpark
Además, se definen los modelos de regresión y clusterización usados y las métricas de error, en este caso RMSE y MAE escogidas para evaluar los modelos.
La fase de experimentación se divide en varias etapas.
La primera etapa consiste en un análisis exploratorio del dataset en el que se busca un primer acercamiento a los datos a tratar, llegando a obtener una información tan interesante como los colores más vendidos en España o la evolución de ventas por talla de un artículo durante una campaña.
Tras esta primera etapa de acercamiento a los datos, se realiza un análisis de las 4 tablas principales que se van a usar, para crear el dataset final que se usará en la parte de modelos de machine learning. Esta tabla final consigue relacionar todos los datos referentes a ventas con la propuesta, stock e información de tiendas.
Además, durante esta fase también se crearán nuevas variables que actuarán como entrada para los modelos de regresión.
Seguidamente, se continuaría con la fase en la que se separa el dataset según la sección, señora y niño, y se crean los conjuntos de entrenamiento y validación.
Finalmente, se procede al entrenamiento de los 3 modelos.
Tras haber entrenado los 3, se mide el RMSE y MAE de cada uno, teniendo las mismas unidades que la salida, que se da en porcentaje, y se compara con el del modelo actual obteniendo.
Due to the difficulty in making the distribution in the retail world, a regression model to optimize this decision is sought, since the current algorithms, in certain situations, do not contemplate all cases.
Some of the tools used have been databricks, which implements MLflow, Mllib, which is the library for applying machine learning models with pySpark, and Mllib, which is the library for applying machine learning models with pySpark.
In addition, the regression and clustering models used and the error metrics, in this case RMSE and MAE chosen to evaluate the models, are defined.
The experimentation phase is divided into several stages.
The first stage consists of an exploratory analysis of the dataset in which a first approach to the data to be processed is sought, obtaining information as interesting as the most sold colors in Spain or the evolution of sales per size of an article during a campaign.
After this first stage of approach to the data, an analysis of the 4 main tables to be used is performed, to create the final dataset that will be used in the machine learning models. This final table manages to relate all the data related to sales with the proposal, stock and store information.
In addition, during this phase new variables will also be created that will act as input for the regression models.
Next, we continue with the phase in which the dataset is separated according to the section, lady and child, and the training and validation sets are created.
Finally, the 3 models are trained.
After training the 3 models, the RMSE and MAE of each one are measured, having the same units as the output, which is given as a percentage, and compared with that of the current model.
Códigos UNESCO CyT
Palabras clave
Editores: Comillas , Administradores CKH · Universidad de Comillas
Compartida con:
