Modelo combinado para la selección de artículos similares
tipo de documento semantico ckh_publication
Ficheros
Resumen
La búsqueda de artículos similares es fundamental en la toma de decisiones. Actualmente, existen diferentes sistemas dedicados a la selección de artículos similares en base a la información disponible en cada momento. Sin embargo, se desea explorar el potencial que tiene una combinación de los mismos con el fin de ofrecer al usuario una experiencia unificada en cualquier momento del ciclo de vida del artículo.
El modelo se ha desarrollado en el entorno de trabajo Azure Databricks con el motor Apache Spark con su API de Python llamada PySpark. Además, como lenguajes de programación se han utilizado Python y SQL.
El proyecto consta de 4 etapas fundamentales: exploración de los datos procedentes del algoritmo de imagen y texto, preparación y transformación de los datos tanto para poder obtener el modelo de referencia (baseline) como para poder entrenar los modelos candidatos de Machine Learning, entrenamiento de distintos modelos de clasificación binaria y comparación de modelos a través de la obtención de métricas como la curva ROC, el área bajo dicha curva (AUC) y la matriz de confusión.
Tras evaluar el rendimiento de todos los modelos, se ha comprobado que la combinación de los modelos base supone una mejora del rendimiento. También, se ha observado que los mejores algoritmos son Gradient-boosted Tree y MLP, junto con Logistic Regression y Random Forest y que la precisión se ve incrementada al incluir como variable de entrada el éxito (exito_corr).
En cuanto a la selección del mejor modelo, se ha realizado un compendio entre el rendimiento, los tiempos de entrenamiento, los tiempos de inferencia y el grado de explicabilidad. Con todo ello, se ha optado por el de regresión logística (Logistic Regression), puesto que tiene un rendimiento muy similar al Gradient-boosted Tree, pero al ser de caja blanca es más sencillo e interpretable, con un grado muy alto de explicabilidad y que requiere tiempos de entrenamiento y de inferencia menores.
The search for similar items is fundamental in decision making. Currently, there are different systems dedicated to the selection of similar items based on the information available at any given time. However, it is desired to explore the potential of a combination of them in order to offer the user a unified experience at any point in the life cycle of the item.
The model has been developed in the Azure Databricks framework using the Apache Spark engine with its Python API called PySpark. In addition, Python and SQL have been used as programming languages.
The project consists of 4 fundamental stages: exploration of the data from the image and text algorithm, preparation and transformation of the data both to obtain the baseline model and to train the candidate Machine Learning models, training of different binary classification models and comparison of models by obtaining metrics such as the ROC curve, the area under the ROC curve (AUC) and the confusion matrix.
After evaluating the performance of all models, it was found that the combination of the base models resulted in improved performance. It has also been observed that the best algorithms are Gradient-boosted Tree and MLP, together with Logistic Regression and Random Forest, and that accuracy is increased by including success (exito_corr) as an input variable.
Regarding the selection of the best model, a compendium has been made between performance, training times, inference times and degree of explainability. With all this, the Logistic Regression model was chosen, since its performance is very similar to that of the Gradient-boosted Tree, but being a white box model, it is simpler and more interpretable, with a very high degree of explainability and requiring shorter training and inference times.
Palabras clave
Editors: Comillas , Administradores CKH · Universidad de Comillas
Shared with: