CompartidoEl 23/01/24 por Comillas

Trabajo fin de máster

Modelo combinado para la selección de artículos similares

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster

TFM-Maroto Dominguez, Ana Bai.pdf

Tamaño 1968264

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/623132/retrieve

Resumen Autorización

AnexoI.pdf

Tamaño 102978

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/623133/retrieve

Fecha de publicación 00/00/2023

Director/Coordinador

Polo Tascón, David

Autor

Maroto Domínguez, Ana Bai

Resumen

Idioma es-ES

Resumen

La búsqueda de artículos similares es fundamental en la toma de decisiones. Actualmente, existen diferentes sistemas dedicados a la selección de artículos similares en base a la información disponible en cada momento. Sin embargo, se desea explorar el potencial que tiene una combinación de los mismos con el fin de ofrecer al usuario una experiencia unificada en cualquier momento del ciclo de vida del artículo.
El modelo se ha desarrollado en el entorno de trabajo Azure Databricks con el motor Apache Spark con su API de Python llamada PySpark. Además, como lenguajes de programación se han utilizado Python y SQL.
El proyecto consta de 4 etapas fundamentales: exploración de los datos procedentes del algoritmo de imagen y texto, preparación y transformación de los datos tanto para poder obtener el modelo de referencia (baseline) como para poder entrenar los modelos candidatos de Machine Learning, entrenamiento de distintos modelos de clasificación binaria y comparación de modelos a través de la obtención de métricas como la curva ROC, el área bajo dicha curva (AUC) y la matriz de confusión.
Tras evaluar el rendimiento de todos los modelos, se ha comprobado que la combinación de los modelos base supone una mejora del rendimiento. También, se ha observado que los mejores algoritmos son Gradient-boosted Tree y MLP, junto con Logistic Regression y Random Forest y que la precisión se ve incrementada al incluir como variable de entrada el éxito (exito_corr).
En cuanto a la selección del mejor modelo, se ha realizado un compendio entre el rendimiento, los tiempos de entrenamiento, los tiempos de inferencia y el grado de explicabilidad. Con todo ello, se ha optado por el de regresión logística (Logistic Regression), puesto que tiene un rendimiento muy similar al Gradient-boosted Tree, pero al ser de caja blanca es más sencillo e interpretable, con un grado muy alto de explicabilidad y que requiere tiempos de entrenamiento y de inferencia menores.

Idioma en-GB

Resumen

The search for similar items is fundamental in decision making. Currently, there are different systems dedicated to the selection of similar items based on the information available at any given time. However, it is desired to explore the potential of a combination of them in order to offer the user a unified experience at any point in the life cycle of the item.
The model has been developed in the Azure Databricks framework using the Apache Spark engine with its Python API called PySpark. In addition, Python and SQL have been used as programming languages.
The project consists of 4 fundamental stages: exploration of the data from the image and text algorithm, preparation and transformation of the data both to obtain the baseline model and to train the candidate Machine Learning models, training of different binary classification models and comparison of models by obtaining metrics such as the ROC curve, the area under the ROC curve (AUC) and the confusion matrix.
After evaluating the performance of all models, it was found that the combination of the base models resulted in improved performance. It has also been observed that the best algorithms are Gradient-boosted Tree and MLP, together with Logistic Regression and Random Forest, and that accuracy is increased by including success (exito_corr) as an input variable.
Regarding the selection of the best model, a compendium has been made between performance, training times, inference times and degree of explainability. With all this, the Logistic Regression model was chosen, since its performance is very similar to that of the Gradient-boosted Tree, but being a white box model, it is simpler and more interpretable, with a very high degree of explainability and requiring shorter training and inference times.

Uri identificador http://hdl.handle.net/11531/78538

Titulación/Programa

Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics

Centro

Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Idioma es-ES

Tag artículos similares

Idioma es-ES

Tag modelo combinado

Idioma es-ES

Tag algoritmo imagen

Idioma es-ES

Tag algoritmo texto

Idioma en-GB

Tag similar articles

Idioma en-GB

Tag combined model

Idioma en-GB

Tag image algorithm

Idioma en-GB

Tag text algorithm

Tipo de archivo application/pdf

Idioma es-ES

Tipo de acceso info:eu-repo/semantics/closedAccess

Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/

Fecha de modificacion 20/07/2023

Fecha de disponibilidad 30/05/2023

fecha de alta 30/05/2023

Send link

Editors: Comillas , Administradores CKH · Universidad de Comillas

Shared with:

CKH Explorer