PublicadoEl 23/11/22 por Comillas
Trabajo fin de máster

Implementation of a data catalog that supports metadata driven data ingestion in Data Lake

tipo de documento semantico ckh_publication

Ficheros

Resumen Autorización
AnexoI_IDR.pdf
Tamaño 232515
Formato Adobe PDF
Resumen Trabajo Fin de Máster
TFM-DiezdeRiveradeSolisIgnacio.pdf
Tamaño 4446316
Formato Adobe PDF
Fecha de publicación 00/00/2019
Director/Coordinador
Gangadhar, Anupama

Resumen

Idioma es-ES
Resumen

Un lago de datos es un repositorio de datos almacenados en su forma original. Permite el almacenamiento de datos estructurados y no estructurados independientemente de la escala. Con el fin de mejorar la gestión de datos en un entorno de Big Data, en Daimler Trucks Asia se está implementando uno.
Sin embargo, al ingerir datos de fuentes muy diferentes, a veces éstos serán difícilmente distinguibles, accesibles, rastreables y comprensibles si no se presta suficiente atención a la gestión de metadatos. Un catalogo de datos es una herramienta de administración de metadatos y resulta fundamental para una adecuada gestion de estos metadatos. Por otro lado, si los datos almacenados en el lago difieren mucho de lo que se muestra en el catálogo debido a problemas de calidad, el lago de datos podría dejar de ser útil. Por lo tanto, la implementación de una solución para medir la calidad de los datos es esencial.
Este trabajo documenta el desarrollo de una prueba de concepto para la implementación de una herramienta de gestión de metadatos, también conocida como catálogo de datos, en Daimler Trucks Asia. El catálogo comprenderá los datos que son ingeridos y almacenados en el lago de datos, posibilitando una administración de metadatos adecuada. Además, se diseñará una solución de seguimiento de calidad de datos basada en los metadatos implementando una solución mínima viable, para garantizar que los datos reales almacenados en el lago sean los esperados.

Idioma en-GB
Resumen

A data lake is a repository of data stored in its raw format. It enables the storage of structured and unstructured data regardless of the scale. In order to improve data management in a Big Data environment, Daimler Trucks Asia is implementing one.
However, when ingesting data from very different sources, it will sometimes become hardly distinguishable, accessible, traceable and understandable if not enough care is given to metadata management. A data catalog is a metadata management tool and is essential to prevent this problem. On the other hand, if the data stored in the lake differs greatly from what is shown in the catalog due to quality problems, the data lake may no longer be useful. Therefore, the implementation of a data quality tracking solution is essential.
This work documents the development of a proof of concept for a data catalog implementation at Daimler Trucks Asia. In addition, a metadata-related quality tracking solution will be designed, and a minimum viable solution implemented, in order to ensure that the actual data stored in the lake is as expected.

Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma en-GB
Tipo de acceso info:eu-repo/semantics/restrictedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 09/09/2022
Fecha de disponibilidad 29/03/2019
fecha de alta 29/03/2019

Categorías:

Compartida con: