CompartidoEl 23/01/24 por Comillas

Trabajo fin de máster

Migración a un entorno cloud: Definición e implementación de la arquitectura y el modelo de datos

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster

TFM-PerezGonzalez-Alberto,Pablo.pdf

Tamaño 833940

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/623095/retrieve

Fecha de publicación 00/00/2023

Director/Coordinador

Meseguer López, María Victoria

Autor

Pérez González-Alberto, Pablo

Resumen

Idioma es-ES

Resumen

El mapeo de datos es una fase esencial en la construcción de un almacén de datos, ya que permite comprender la estructura, relaciones y atributos de las bases y fuentes de datos existentes. Esto facilita la transformación de datos, mejora el rendimiento y garantiza la consistencia. Se sigue una metodología rigurosa que incluye el análisis de requisitos, el descubrimiento de datos, la definición de esquemas de destino, el mapeo de datos, la documentación, y la validación y pruebas.
El control de calidad garantiza la precisión, objetividad y cumplimiento de las normativas en las tasaciones ordinarias.. Se verifican campos como la finalidad del informe, el número de fincas valoradas, el tipo de visita realizada, los datos de identificación, el registro de la propiedad, la tipología, las superficies, los documentos adjuntos, los anejos valorados, las cargas y estados financieros, los titulares y la protección oficial en el caso de viviendas protegidas. Este proceso es completamente manual, pero se busca automatizarlo mediante la lectura automática de informes de tasación y notas simples.
Se utilizan PyMuPDF y Tabula para leer y extraer datos tabulares de archivos PDF, respectivamente. Pytesseract se utiliza para el OCR con el motor Tesseract. Además, se emplea pdf2image para convertir archivos PDF a imágenes y extraer el texto de las imágenes cuando Tabula no puede leer las tablas correctamente. Se crean varios servicios que implementan la lógica de extracción, utilizando la librería FastAPI para crear una interfaz web de API. El usuario carga un archivo PDF, el servicio QualityControl comprueba el formato, extrae el texto y las tablas del archivo, y luego el servicio ExtractionService extrae los campos relevantes utilizando enfoques como expresiones regulares (regex) o manipulación de tablas en forma de dataframe. Finalmente, los datos de salida se presentan en formato JSON a través de la API.

Idioma en-GB

Resumen

Data mapping is an essential phase in building a data warehouse as it allows understanding the structure, relationships, and attributes of existing databases and data sources. This facilitates data transformation, improves performance, and ensures consistency. A rigorous methodology is followed, including requirement analysis, data discovery, target schema definition, data mapping, documentation, validation, and testing.

Quality control ensures accuracy, objectivity, and compliance with regulations in regular appraisals. Fields such as the purpose of the report, the number of appraised properties, the type of visit conducted, identification data, property registration, typology, areas, attached documents, valued appendices, encumbrances and financial states, owners, and official protection in the case of subsidized housing are verified. This process is entirely manual, but automation is sought through automatic reading of appraisal reports and simple notes.

PyMuPDF and Tabula are used to read and extract tabular data from PDF files, respectively. Pytesseract is used for OCR using the Tesseract engine. Additionally, pdf2image is employed to convert PDF files to images and extract text from the images when Tabula cannot read tables correctly. Several services are created that implement the extraction logic, using the FastAPI library to create a web API interface. The user uploads a PDF file, the QualityControl service checks the format, extracts text and tables from the file, and then the ExtractionService extracts relevant fields using approaches such as regular expressions (regex) or table manipulation in the form of a dataframe. Finally, the output data is presented in JSON format through the API.

Uri identificador http://hdl.handle.net/11531/78523

Titulación/Programa

Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics

Centro

Escuela Técnica Superior de Ingeniería (ICAI)

Códigos UNESCO CyT

Palabras clave

Idioma es-ES

Tag Sociedad de Tasación

Idioma es-ES

Tag Informes de Tasación

Idioma es-ES

Tag Interfaz de Programación de Aplicaciones

Idioma es-ES

Tag PDF

Idioma es-ES

Tag automatización de procesos y almacén de datos

Idioma en-GB

Tag Appraisal Society

Idioma en-GB

Tag Appraisal Report

Idioma en-GB

Tag Application Programming Interface

Idioma en-GB

Tag PDF

Idioma en-GB

Tag Process Automation and Data Warehouse

Tipo de archivo application/pdf

Idioma es-ES

Tipo de acceso info:eu-repo/semantics/closedAccess

Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/

Fecha de modificacion 28/08/2023

Fecha de disponibilidad 30/05/2023

fecha de alta 30/05/2023

Send link

Editors: Comillas , Administradores CKH · Universidad de Comillas

Shared with:

CKH Explorer