PublicadoEl 23/11/22 por Comillas
Trabajo fin de máster

Modelo de Deep Learning capaz de clasificar páginas en base a su imagen y texto

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster
TFM-GarciaMeneses,Raquel.pdf
Tamaño 10261214
Formato Adobe PDF
Resumen Autorización
TFM-GarciaMeneses,Raquel.pdf
Tamaño 10261214
Formato Adobe PDF
Fecha de publicación 00/00/2021
Director/Coordinador
García de Leániz González, Javier

Resumen

Idioma es-ES
Resumen

La inteligencia artificial aplicada a documentos es un campo cada vez más empleado, pues se ha visto la importancia y el valor que aporta la extracción automática de información útil de documentos. En ocasiones, es muy útil clasificar los documentos según su tipo. Este tipo de tareas se han realizado exclusivamente usando el texto que contiene. En últimos avances se está combinando el texto con el formato de las paginas donde los resultados están siendo muchos mejores. Antes había documentos que no se clasificaban correctamente usando las técnicas anteriores, pero con las nuevas técnicas que incluyen el formato de las páginas estos errores se están viendo reducidos. Este estudio se centra en profundidad en la clasificación de páginas según su layout. Usa técnicas de Deep Learning como son modelos preentrenados de redes neuronales para extraer las características relevantes de las paginas para luego realizar un algoritmo de clustering donde agrupe las paginas según los formatos. Se usan también técnicas no supervisadas ya que no se dispone de datos etiquetados. Finalmente, los resultados son muy buenos, principalmente cuando se usa un conjunto de documentos donde no hay una gran cantidad de formatos diferentes.

Idioma en-GB
Resumen

Artificial intelligence applied to documents is an increasingly used field, as the importance and value of automatically extracting useful information from documents has been realized. Sometimes, it is very useful to classify documents according to their type. These types of tasks have been performed exclusively using the text they contain. In recent developments, text is being combined with its layout and the results are much better. Previously there were documents that were not correctly classified using the previous techniques, but with the new techniques that include the layout made that these errors are reduced. This study focuses in depth on the classification of pages according to their layout. It uses Deep Learning techniques such as pre-trained neural network models to extract the relevant features of the pages and then perform a clustering algorithm where the pages are grouped according to their layouts. Unsupervised techniques are also used as no labelled data is available. Finally, the results are very good, mainly when using a set of documents where there are not many different layouts.

Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma es-ES
Tipo de acceso info:eu-repo/semantics/closedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 09/09/2022
Fecha de disponibilidad 08/03/2021
fecha de alta 08/03/2021

Categories:

Shared with: