PublicadoEl 23/11/22 por Comillas

Trabajo fin de máster

Modelo de Deep Learning capaz de clasificar páginas en base a su imagen y texto

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster

TFM-GarciaMeneses,Raquel.pdf

Tamaño 10261214

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/441318/retrieve

Resumen Autorización

TFM-GarciaMeneses,Raquel.pdf

Tamaño 10261214

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/441319/retrieve

Fecha de publicación 00/00/2021

Director/Coordinador

García de Leániz González, Javier

Resumen

Idioma es-ES

Resumen

La inteligencia artificial aplicada a documentos es un campo cada vez más empleado, pues se ha visto la importancia y el valor que aporta la extracción automática de información útil de documentos. En ocasiones, es muy útil clasificar los documentos según su tipo. Este tipo de tareas se han realizado exclusivamente usando el texto que contiene. En últimos avances se está combinando el texto con el formato de las paginas donde los resultados están siendo muchos mejores. Antes había documentos que no se clasificaban correctamente usando las técnicas anteriores, pero con las nuevas técnicas que incluyen el formato de las páginas estos errores se están viendo reducidos. Este estudio se centra en profundidad en la clasificación de páginas según su layout. Usa técnicas de Deep Learning como son modelos preentrenados de redes neuronales para extraer las características relevantes de las paginas para luego realizar un algoritmo de clustering donde agrupe las paginas según los formatos. Se usan también técnicas no supervisadas ya que no se dispone de datos etiquetados. Finalmente, los resultados son muy buenos, principalmente cuando se usa un conjunto de documentos donde no hay una gran cantidad de formatos diferentes.

Idioma en-GB

Resumen

Artificial intelligence applied to documents is an increasingly used field, as the importance and value of automatically extracting useful information from documents has been realized. Sometimes, it is very useful to classify documents according to their type. These types of tasks have been performed exclusively using the text they contain. In recent developments, text is being combined with its layout and the results are much better. Previously there were documents that were not correctly classified using the previous techniques, but with the new techniques that include the layout made that these errors are reduced. This study focuses in depth on the classification of pages according to their layout. It uses Deep Learning techniques such as pre-trained neural network models to extract the relevant features of the pages and then perform a clustering algorithm where the pages are grouped according to their layouts. Unsupervised techniques are also used as no labelled data is available. Finally, the results are very good, mainly when using a set of documents where there are not many different layouts.

Uri identificador http://hdl.handle.net/11531/54803

Centro

Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Idioma es-ES

Tag Formato

Idioma es-ES

Tag clustering

Idioma es-ES

Tag modelo preentrenado

Idioma es-ES

Tag features

Idioma es-ES

Tag Deep Learning.

Idioma en-GB

Tag Layout

Idioma en-GB

Tag clustering

Idioma en-GB

Tag pretrained model

Idioma en-GB

Tag features

Idioma en-GB

Tag Deep Learning

Tipo de archivo application/pdf

Idioma es-ES

Tipo de acceso info:eu-repo/semantics/closedAccess

Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/

Fecha de modificacion 09/09/2022

Fecha de disponibilidad 08/03/2021

fecha de alta 08/03/2021

Send link

Categories:

Docencia

Shared with:

CKH Docencia