Transformación y validación de datos globales usando PySpark.
tipo de documento semantico ckh_publication
Ficheros
Resumen
Esta tesis de máster describe el trabajo realizado como ingeniero de datos para Management Solutions, una empresa de consultoría que trabaja para un importante banco internacional, el proyecto estaba centrado en la transformación e integración de datos procedentes de diversas geografías en una base de datos de ámbito global. El objetivo del proyecto era agilizar el proceso de integración de datos, garantizando la coherencia y accesibilidad de las diversas fuentes de datos.
El proyecto comenzó por comprender los requisitos de la base de datos global y establecer canales de comunicación eficaces con los proveedores de datos, los administradores de sistemas y las partes interesadas del negocio. Mediante un proceso de integración de datos, se extrajeron datos de bases de datos internas, API internas y proveedores externos. Se aplicaron procesos de limpieza para garantizar la precisión y la fiabilidad, mientras que la transformación implicó la normalización de los datos mediante la resolución de discrepancias y la aplicación de conversiones de datos. También se utilizaron técnicas de enriquecimiento para mejorar la calidad de los datos.
A lo largo de todo el proyecto se prestó atención a la privacidad y seguridad de los datos. Los datos sensibles se anonimizaron, garantizando el cumplimiento de la normativa y salvaguardando la información de los clientes. Por ejemplo, todos los campos que contenían información personal (nombre de la empresa, identidad real de las personas, etc.) se anonimizaron para garantizar la privacidad. Se implantaron sólidas prácticas de gobernanza de datos para mantener la integridad, la trazabilidad y la responsabilidad. El último paso consistió en crear una función capaz de comparar millones de filas de datos con docenas o incluso a veces cientos de columnas para asegurarse de que los datos de las distintas bases de datos estaban bien informados.
Al completar con éxito este proyecto, el banco pretende conseguir una base de datos consolidada y fiable que proporcione una visión completa de sus operaciones globales. Los datos transformados e integrados permiten tomar decisiones basadas en datos, aumentan la eficacia operativa y mejoran la experiencia del cliente. Este proyecto era una pequeña fracción de lo que el banco denominaba Modelo Global y el plazo estimado de finalización era de unos 4 años, en 2026/2027.
This master’s thesis describes the work conducted as a data engineer for Management Solutions, a consulting company working for a leading international bank, focusing on transforming and integrating data from various geographies into a global-level database. The project aimed to streamline the data integration process, ensuring consistency and accessibility across diverse data sources.
The project began by understanding the requirements of the global database and establishing effective communication channels with data providers, system administrators, and business stakeholders. Through a data integration pipeline, data extraction was performed from internal databases, internal APIs, and third-party providers. Cleaning processes were applied to ensure accuracy and reliability, while transformation involved standardizing the data by resolving discrepancies and applying data conversions. Enrichment techniques were also utilized to enhance the data quality.
Attention was given to data privacy and security throughout the project. Sensitive data was anonymized, ensuring compliance with regulations and safeguarding customer information. For example, all fields containing personal information(name of company, actual id of the people,...) were anonymized to ensure privacy. Robust data governance practices were implemented to maintain integrity, traceability, and accountability. The final step involved in creating a function that was able to compare millions of rows of data with dozens or even sometimes hundreds of columns to make sure that data across different databases was well informed
By successfully completing this project, the bank is looking to achieve a consolidated, reliable database that provides a comprehensive view of their global operations. The transformed and integrated data enables data-driven decision-making, enhances operational efficiency, and improves customer experiences. This project was a small fraction of what the bank was calling Global Model and the estimated time to complete was around 4 years in 2026/2027.
Palabras clave
Editoreak: Comillas , Administradores CKH · Universidad de Comillas
Honekin partekatua: