Modelo de Deep Learning capaz de clasificar páginas en base a su imagen y texto
tipo de documento semantico ckh_publication
Ficheros
Resumen
La inteligencia artificial aplicada a documentos es un campo cada vez más empleado, pues se ha visto la importancia y el valor que aporta la extracción automática de información útil de documentos. En ocasiones, es muy útil clasificar los documentos según su tipo. Este tipo de tareas se han realizado exclusivamente usando el texto que contiene. En últimos avances se está combinando el texto con el formato de las paginas donde los resultados están siendo muchos mejores. Antes había documentos que no se clasificaban correctamente usando las técnicas anteriores, pero con las nuevas técnicas que incluyen el formato de las páginas estos errores se están viendo reducidos. Este estudio se centra en profundidad en la clasificación de páginas según su layout. Usa técnicas de Deep Learning como son modelos preentrenados de redes neuronales para extraer las características relevantes de las paginas para luego realizar un algoritmo de clustering donde agrupe las paginas según los formatos. Se usan también técnicas no supervisadas ya que no se dispone de datos etiquetados. Finalmente, los resultados son muy buenos, principalmente cuando se usa un conjunto de documentos donde no hay una gran cantidad de formatos diferentes.
Artificial intelligence applied to documents is an increasingly used field, as the importance and value of automatically extracting useful information from documents has been realized. Sometimes, it is very useful to classify documents according to their type. These types of tasks have been performed exclusively using the text they contain. In recent developments, text is being combined with its layout and the results are much better. Previously there were documents that were not correctly classified using the previous techniques, but with the new techniques that include the layout made that these errors are reduced. This study focuses in depth on the classification of pages according to their layout. It uses Deep Learning techniques such as pre-trained neural network models to extract the relevant features of the pages and then perform a clustering algorithm where the pages are grouped according to their layouts. Unsupervised techniques are also used as no labelled data is available. Finally, the results are very good, mainly when using a set of documents where there are not many different layouts.