CompartidoEl 23/01/24 por Comillas
Trabajo fin de máster

Transformación y validación de datos globales usando PySpark.

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster
TFM Gil Garcia, Enrique.pdf
Tamaño 2889135
Formato Adobe PDF
Resumen Autorización
AnexoI.pdf
Tamaño 53631
Formato Adobe PDF
Fecha de publicación 00/00/2023
Director/Coordinador
Morrás Ruiz-Falcó, Carlos
Autor
Gil Garcia, Enrique

Resumen

Idioma es-ES
Resumen

Esta tesis de máster describe el trabajo realizado como ingeniero de datos para Management Solutions, una empresa de consultoría que trabaja para un importante banco internacional, el proyecto estaba centrado en la transformación e integración de datos procedentes de diversas geografías en una base de datos de ámbito global. El objetivo del proyecto era agilizar el proceso de integración de datos, garantizando la coherencia y accesibilidad de las diversas fuentes de datos.

El proyecto comenzó por comprender los requisitos de la base de datos global y establecer canales de comunicación eficaces con los proveedores de datos, los administradores de sistemas y las partes interesadas del negocio. Mediante un proceso de integración de datos, se extrajeron datos de bases de datos internas, API internas y proveedores externos. Se aplicaron procesos de limpieza para garantizar la precisión y la fiabilidad, mientras que la transformación implicó la normalización de los datos mediante la resolución de discrepancias y la aplicación de conversiones de datos. También se utilizaron técnicas de enriquecimiento para mejorar la calidad de los datos.

A lo largo de todo el proyecto se prestó atención a la privacidad y seguridad de los datos. Los datos sensibles se anonimizaron, garantizando el cumplimiento de la normativa y salvaguardando la información de los clientes. Por ejemplo, todos los campos que contenían información personal (nombre de la empresa, identidad real de las personas, etc.) se anonimizaron para garantizar la privacidad. Se implantaron sólidas prácticas de gobernanza de datos para mantener la integridad, la trazabilidad y la responsabilidad. El último paso consistió en crear una función capaz de comparar millones de filas de datos con docenas o incluso a veces cientos de columnas para asegurarse de que los datos de las distintas bases de datos estaban bien informados.

Al completar con éxito este proyecto, el banco pretende conseguir una base de datos consolidada y fiable que proporcione una visión completa de sus operaciones globales. Los datos transformados e integrados permiten tomar decisiones basadas en datos, aumentan la eficacia operativa y mejoran la experiencia del cliente. Este proyecto era una pequeña fracción de lo que el banco denominaba Modelo Global y el plazo estimado de finalización era de unos 4 años, en 2026/2027.

Idioma en-GB
Resumen

This master’s thesis describes the work conducted as a data engineer for Management Solutions, a consulting company working for a leading international bank, focusing on transforming and integrating data from various geographies into a global-level database. The project aimed to streamline the data integration process, ensuring consistency and accessibility across diverse data sources.

The project began by understanding the requirements of the global database and establishing effective communication channels with data providers, system administrators, and business stakeholders. Through a data integration pipeline, data extraction was performed from internal databases, internal APIs, and third-party providers. Cleaning processes were applied to ensure accuracy and reliability, while transformation involved standardizing the data by resolving discrepancies and applying data conversions. Enrichment techniques were also utilized to enhance the data quality.

Attention was given to data privacy and security throughout the project. Sensitive data was anonymized, ensuring compliance with regulations and safeguarding customer information. For example, all fields containing personal information(name of company, actual id of the people,...) were anonymized to ensure privacy. Robust data governance practices were implemented to maintain integrity, traceability, and accountability. The final step involved in creating a function that was able to compare millions of rows of data with dozens or even sometimes hundreds of columns to make sure that data across different databases was well informed

By successfully completing this project, the bank is looking to achieve a consolidated, reliable database that provides a comprehensive view of their global operations. The transformed and integrated data enables data-driven decision-making, enhances operational efficiency, and improves customer experiences. This project was a small fraction of what the bank was calling Global Model and the estimated time to complete was around 4 years in 2026/2027.

Titulación/Programa
Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics
Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma es-ES
Tipo de acceso info:eu-repo/semantics/closedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 20/07/2023
Fecha de disponibilidad 30/05/2023
fecha de alta 30/05/2023

Editoreak: Comillas , Administradores CKH · Universidad de Comillas

Honekin partekatua: