CompartidoEl 23/01/24 por Comillas
Trabajo fin de máster

Obtención de valores de confianza de valores extraídos por algoritmos de NLP

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster
TFM_FINAL.pdf
Tamaño 3513749
Formato Adobe PDF
Resumen Autorización
ConfirmacionTFM.pdf
Tamaño 145547
Formato Adobe PDF
Fecha de publicación 00/00/2022
Director/Coordinador
Camarena Torres, Lucas
Autor
Rodriguez Mujica, Alvaro

Resumen

Idioma es-ES
Resumen

Este proyecto trata de cuantificar la fiabilidad de los algoritmos de extracción de una herramienta
diseñada para la extracción de información de documentos no estructurados llamada SIRE. Es una
solución desarrollada íntegramente por el departamento de Wavespace de EY Madrid. Cuenta con
varias funcionalidades principales, como la clasificación automática de documentos, la
digitalización e identificación de documentos y la extracción de campos de datos en los
documentos procesados.
Además de una detallada explicación del funcionamiento de SIRE y sus distintas fases, este trabajo
trata de desarrollar un sistema de confianzas que determine si el campo de dato ha sido extraído
correctamente devolviendo una confianza alta, o de lo contrario, devolviendo una confianza baja.
Esta decisión se toma mediante la definición de un conjunto de criterios para cada campo de dato,
los cuales si se cumplen significa que el campo de dato ha sido extraído con éxito.
Por último, se introduce un nuevo framework que ha sido desarrollado por EY para el proceso de
extracción. Este nuevo framework aplica un sistema de herencias para heredar características de
modelos de datos antiguos a uno nuevo. Para este nuevo sistema de herencias se ha tratado de
desarrollar un sistema de confianzas que sea compatible con este, de forma que
independientemente de si un modelo de datos utiliza la extracción tradicional o el sistema de
herencias, pueda incorporar dentro de su pipeline un sistema de confianzas que le ayude a
determinar si los campos de datos se han extraído correctamente o no.

Idioma en-GB
Resumen

This project seeks to quantify the reliability of extraction algorithms from a tool developed to
extract information from non-structured documents called SIRE. This solution has been entirely
developed by the Wavespace department at EY Madrid. It has some main functionalities such as
the automatic classification of documents, the digitization and identification of documents and the
extraction of datapoints in processed documents.
In addition to a detailed explanation of how SIRE works and its different stages, this project seeks
to develop a confidence system that will determine whether a datapoint has been correctly
extracted, giving it a high confidence, or it has not, giving it a low confidence. This decision is
taken by defining a whole set of characteristics for each datapoint, which if they’re met, then it
means the datapoint has correctly been extracted.
Lastly, a new framework developed by EY is introduced. Such framework changes the way the
extraction method is achieved by applying an inheritance system that inherits extraction features
of old datamodels and applies them to new datamodels. The project seeks to develop a confidence
system that is compatible with this new inheritance system, so that, whether a datamodel follows
the traditional extraction model or the inheritance system model, it can incorporate the confidence
system to help determine which datapoints have been correctly extracted and which haven’t.

Titulación/Programa
Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics
Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma es-ES
Tipo de acceso info:eu-repo/semantics/closedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 27/04/2023
Fecha de disponibilidad 03/05/2022
fecha de alta 03/05/2022

Editors: Comillas , Administradores CKH · Universidad de Comillas

Shared with: