Estado del arte de machine Learning Pipelines y aplicación de Tensorflow Extended Pipelines a datos satelitales dentro del proyecto seda
tipo de documento semantico ckh_publication
Ficheros
Resumen
En el contexto del proyecto SEDA, consistente en el desarrollo de una plataforma web de inteligencia geoespacial, se ha identificado la necesidad de estandarizar el ciclo de vida de los datos y de los modelos de aprendizaje profundo que se emplean en su actual implementación.
Como solución a este problema, se ha realizado un estudio de las metodologías más innovadoras empleadas en la actualidad en proyectos similares y se ha investigado sobre la plataforma comercial Luigi, creada por Spotify para resolver el mismo problema.
Gracias al estudio del estado del arte se ha podido seleccionar justificadamente la metodología propuesta por Google Brain para transformar los procesos actuales. Para ello, se ha empleado TFX, una plataforma que permite construir pipelines completas de aprendizaje automático optimizadas para su despliegue en producción. Los motivos principales han sido la perfecta integración con TensorFlow y la orientación a sistemas en producción. Su funcionamiento se basa en cuatro elementos: los componentes, los artefactos, los metadatos y el orquestador, que permiten conectar las salidas de cada etapa del ciclo de vida del sistema con las entradas de la siguiente etapa, con un gasto mínimo de recursos computacionales gracias a los metadatos y al orquestados, que permite ejecutar las tareas de forma distribuida.
Se ha asimilado el funcionamiento de TFX de manera progresiva, en primer lugar, realizando la implementación sobre el conocido dataset de MNIST para asentar los conceptos básicos y extrapolarlos posteriormente a las imágenes satelitales de un caso de uso del proyecto SEDA. Se ha logrado adaptar los procesos actuales al lenguaje de TFX y completar una ejecución empleando esta plataforma.
Finalmente, el proyecto se ha limitado a la etapa de adquisición de datos y procesamiento de imágenes de otro caso de uso. Este procesamiento ha permitido detectar las diferencias entre dos imágenes temporalmente distintas de una misma zona costera y automatizar su obtención de la API de Sentinel Hub.
In the context of the SEDA project, consisting of the development of a web platform for geospatial intelligence, the need to standardise the life cycle of the data and deep learning models used in its current implementation has been identified.
As a solution to this problem, a study of the most innovative methodologies currently used in similar projects has been carried out and research has been done on the commercial platform Luigi, created by Spotify to solve the same problem.
Thanks to the study of the state of the art, it has been possible to justifiably select the methodology proposed by Google Brain to transform the current processes. To this end, TFX, a platform that allows the construction of complete machine learning pipelines optimised for deployment in production, was used. The main reasons were the perfect integration with TensorFlow and the orientation towards production systems. Its operation is based on four elements: the components, the artefacts, the metadata and the orchestrator, which allow connecting the outputs of each stage of the system life cycle with the inputs of the next stage, with a minimum expenditure of computational resources thanks to the metadata and the orchestrator, which allows executing the tasks in a distributed way.
The operation of TFX has been assimilated progressively, firstly by implementing it on the well-known MNIST dataset in order to establish the basic concepts and then extrapolate them to the satellite images of a use case of the SEDA project. It has been possible to adapt the current processes to the TFX language and complete an execution using this platform.
Finally, the project has been limited to the data acquisition and image processing stage of another use case. This processing has made it possible to detect the differences between two temporally different images of the same coastal area and to automate their retrieval from the Sentinel Hub API.
Códigos UNESCO CyT
Palabras clave
Shared with:
