Optimisation of packet sorting and distribution processes within a logistics network.
tipo de documento semantico ckh_publication
Ficheros
Resumen
Amazon es conocida por ser una empresa centrada en los datos, lo que significa que sus decisiones empresariales deben justificarse a través de datos. La generación y el almacenamiento de datos crecen exponencialmente hoy en día, y Amazon se mantiene al día en esta tendencia al almacenar en el orden de exabytes de datos. Estos datos deben ser debidamente analizados y presentados para extraer de ellos el máximo valor empresarial.
Este proyecto describe los pasos necesarios para ejecutar con éxito un data pipeline, desde la generación de los datos, la extracción de los mismos, su transformación y su volcado en el destino y formato final que alcancen. En concreto, este trabajo propone y evalúa un data pipeline en el contexto de varios proyectos llevados a cabo en un departamento de logística dentro de Amazon.
Los datos se toman primero de un data lake sin tratar y en formatos diversos. A partir de ahí, los datos se trasladan a un data warehouse mediante varios procesos ETL (extracción, transformación y carga) que modifican y mejoran los datos originales para producir una fuente de datos estructurada, coherente y fiable. Estos procesos se programan oportunamente para lograr un equilibrio entre disponibilidad y recursos informáticos. Una vez en el data warehouse, los datos se extraen y se muestran en paneles interactivos a los que pueden acceder las distintas partes interesadas de la empresa.
El procedimiento completo logra procesar los datos desde su generación hasta su presentación. Trabajos en el futuro podrían centrarse en mejorar la velocidad de este procedimiento y la calidad de los datos mostrados.
Amazon is known to be a data-driven company, meaning that their business decisions must be justified through data. Data generation and storage is growing exponentially nowadays, and Amazon is keeping up to date in this trend by reportedly storing in the order of exabytes of data. This data should be duly analysed and displayed to extract maximum business value out of it.
This thesis outlines the necessary steps to run a successful data pipeline, form the generation of the data entries, the extraction of the data, its transformation and its loading in whatever final destination and format it may reach. In particular, this paper proposes and evaluates a data pipeline in the context of several projects carried out in a logistics department within Amazon.
Data is first taken form a data lake in raw and varied formats. From here, data is moved to a data warehouse by means of several ETL (extract, transform, load) jobs that modify and enrich the original data to produce a structured, consistent and reliable source of data. These jobs are timely scheduled to achieve a balance between availability and computational resources. Once in the warehouse, data is queried and displayed in interactive dashboards for different stakeholders to access.
The pipeline is successful in taking data from its generation to its presentation. Future work could focus on improving the speed of this pipeline and the completion of the displayed data.
Palabras clave
Editores: Comillas , Administradores CKH · Universidad de Comillas
Compartida con: