PublicadoEl 15/12/23 por Comillas
Trabajo fin de grado

Back-End and Integration of a Sound Separation Solution

tipo de documento semantico ckh_publication

Ficheros

Resumen Autorización
Autoria.pdf
Tamaño 165284
Formato Adobe PDF
Resumen Trabajo Fin de Grado
TFG - Alsina Piro, Eduard.pdf
Tamaño 7902430
Formato Adobe PDF
Fecha de publicación 00/00/2020
Director/Coordinador
Hall, Neal
Autor
Alsina Piró, Eduard

Resumen

Idioma es-ES
Resumen

Este proyecto ha desarrollado y entrenado un modelo de aprendizaje automático (machine learning) que recibe archivos de música y los separa en sus distintos componentes: voces, percusión, bajo y otros. La separación se basa en un modelo de deep learning programado en PyTorch y utiliza la arquitectura Wave-U-Net. El diseño final también incluye un modelo de separación alternativo llamado Open-Unmix que, según las pruebas realizadas, suele ofrecer mejor separación a costa de mayor tiempo de procesamiento y consumo de recursos.

Este motor de separación se ha integrado con un front-end doble, para web y para dispositivos Apple. La integración se ha diseñado mediante peticiones HTTP estándar y siguiendo la filosofía RESTful. Los archivos resultantes de la separación pueden ser manipulados y descargados, pero también se almacenan en el back-end para posteriores consultas. Se ha dispuesto una capa de autenticación básica para controlar el acceso a este almacenamiento.

El proyecto forma parte de otro proyecto de mayor envergadura en el que el autor ha participado durante su estancia en la Universidad de Texas en Austin. El objetivo final de ese proyecto ha sido el diseño de una solución integral para separación de sonidos. Ha estado patrocinado por la compañía Harman International (filial de Samsung), la cual ha proporcionado asesoramiento y financiación.

Idioma en-GB
Resumen

This project has designed and trained a machine learning model that receives music files and separates them into their different components: vocals, percussion, bass, and others. The separation is based on a deep learning model programmed in PyTorch and it uses the Wave-U-Net architecture. An alternative separation model called Open-Unmix has also been included in the final design. According to the tests carried out, this model usually offers better separation at the cost of more processing time and resource consumption.

This separation engine has been integrated with a dual front-end, for the web and for Apple devices. The integration has been designed using standard HTTP requests and following the RESTful design philosophy. The resulting files from the separation can be played and downloaded, but are also stored in the back-end for subsequent queries. A basic authentication layer has been implemented to control access to this storage.

The project is part of a larger project in which the author has participated during his stay at the University of Texas at Austin. The final goal of that project has been the design of a comprehensive solution for sound separation. It has been sponsored by Harman International (a subsidiary of Samsung), which has provided advice and funding.

Titulación/Programa
Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Administración y Dirección de Empresas
Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma en-GB
Tipo de acceso info:eu-repo/semantics/restrictedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 09/09/2022
Fecha de disponibilidad 14/02/2020
fecha de alta 14/02/2020

Categorías:

Compartida con: