CompartidoEl 23/01/24 por Comillas
Trabajo fin de máster

Migración a un entorno cloud: Definición e implementación de la arquitectura y el modelo de datos

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster
TFM-PerezGonzalez-Alberto,Pablo.pdf
Tamaño 833940
Formato Adobe PDF
Fecha de publicación 00/00/2023
Director/Coordinador
Meseguer López, María Victoria
Autor
Pérez González-Alberto, Pablo

Resumen

Idioma es-ES
Resumen

El mapeo de datos es una fase esencial en la construcción de un almacén de datos, ya que permite comprender la estructura, relaciones y atributos de las bases y fuentes de datos existentes. Esto facilita la transformación de datos, mejora el rendimiento y garantiza la consistencia. Se sigue una metodología rigurosa que incluye el análisis de requisitos, el descubrimiento de datos, la definición de esquemas de destino, el mapeo de datos, la documentación, y la validación y pruebas.
El control de calidad garantiza la precisión, objetividad y cumplimiento de las normativas en las tasaciones ordinarias.. Se verifican campos como la finalidad del informe, el número de fincas valoradas, el tipo de visita realizada, los datos de identificación, el registro de la propiedad, la tipología, las superficies, los documentos adjuntos, los anejos valorados, las cargas y estados financieros, los titulares y la protección oficial en el caso de viviendas protegidas. Este proceso es completamente manual, pero se busca automatizarlo mediante la lectura automática de informes de tasación y notas simples.
Se utilizan PyMuPDF y Tabula para leer y extraer datos tabulares de archivos PDF, respectivamente. Pytesseract se utiliza para el OCR con el motor Tesseract. Además, se emplea pdf2image para convertir archivos PDF a imágenes y extraer el texto de las imágenes cuando Tabula no puede leer las tablas correctamente. Se crean varios servicios que implementan la lógica de extracción, utilizando la librería FastAPI para crear una interfaz web de API. El usuario carga un archivo PDF, el servicio QualityControl comprueba el formato, extrae el texto y las tablas del archivo, y luego el servicio ExtractionService extrae los campos relevantes utilizando enfoques como expresiones regulares (regex) o manipulación de tablas en forma de dataframe. Finalmente, los datos de salida se presentan en formato JSON a través de la API.

Idioma en-GB
Resumen

Data mapping is an essential phase in building a data warehouse as it allows understanding the structure, relationships, and attributes of existing databases and data sources. This facilitates data transformation, improves performance, and ensures consistency. A rigorous methodology is followed, including requirement analysis, data discovery, target schema definition, data mapping, documentation, validation, and testing.

Quality control ensures accuracy, objectivity, and compliance with regulations in regular appraisals. Fields such as the purpose of the report, the number of appraised properties, the type of visit conducted, identification data, property registration, typology, areas, attached documents, valued appendices, encumbrances and financial states, owners, and official protection in the case of subsidized housing are verified. This process is entirely manual, but automation is sought through automatic reading of appraisal reports and simple notes.

PyMuPDF and Tabula are used to read and extract tabular data from PDF files, respectively. Pytesseract is used for OCR using the Tesseract engine. Additionally, pdf2image is employed to convert PDF files to images and extract text from the images when Tabula cannot read tables correctly. Several services are created that implement the extraction logic, using the FastAPI library to create a web API interface. The user uploads a PDF file, the QualityControl service checks the format, extracts text and tables from the file, and then the ExtractionService extracts relevant fields using approaches such as regular expressions (regex) or table manipulation in the form of a dataframe. Finally, the output data is presented in JSON format through the API.

Titulación/Programa
Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics
Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma es-ES
Tipo de acceso info:eu-repo/semantics/closedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 28/08/2023
Fecha de disponibilidad 30/05/2023
fecha de alta 30/05/2023

Editors: Comillas , Administradores CKH · Universidad de Comillas

Shared with: