CompartidoEl 23/01/24 por Comillas

Trabajo fin de máster

Speech Emotion Recognition with Deep Learning

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster

TFM-MIC-EscolanoHovine,Guillermo.pdf

Tamaño 1129966

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/629941/retrieve

Resumen Autorización

AnexoI.pdf

Tamaño 61179

Formato Adobe PDF

Url del contenido https://repositorio.comillas.edu/rest/bitstreams/629942/retrieve

Fecha de publicación 00/00/2023

Director/Coordinador

Muñoz Alonso, Javier

Autor

Escolano Hovine, Guillermo

Resumen

Idioma es-ES

Resumen

La Industria 5.0 marca la última evolución en avances tecnológicos, mezclando la creatividad humana con la precisión de las máquinas. A diferencia de la Industria 4.0, que se apoyaba en gran medida en la automatización, la Industria 5.0 hace hincapié en la colaboración, garantizando que humanos y máquinas trabajen codo con codo. En este marco, el aprendizaje profundo (Deep Learning, DL) emerge como una herramienta fundamental. El aprendizaje profundo permite obtener información sobre los datos que antes no hubiera sido posible con técnicas tradicionales como el aprendizaje automático. Por lo tanto, el aprendizaje profundo está teniendo profundas implicaciones en diversos sectores, desde la sanidad hasta el entretenimiento.
Un avance reciente en este ámbito es el reconocimiento de las emociones del habla (SER). El SER permite a las máquinas discernir y responder a las emociones humanas transmitidas a través del habla. Piense en escenarios en los que un médico es alertado por la angustia en la voz de un paciente, o cuando las plataformas de atención al cliente se adaptan en función del estado de ánimo de un usuario. La tecnología SER hace que las máquinas sean más receptivas y las acerca más a las necesidades y sentimientos humanos, lo que permite una mejor interacción persona-máquina (HCI).

En este trabajo se desplegará un sistema integral de Reconocimiento de Emociones del Habla (SER), que supone un cambio significativo con respecto a los enfoques tradicionales de aprendizaje automático. Se acompaña de una interfaz gráfica de usuario (GUI) específica para aplicaciones en tiempo real. Esto ofrece una interfaz intuitiva para que los usuarios potenciales utilicen SER en su beneficio.
En cuanto a los objetivos, el enfoque técnico es doble: lograr una precisión de vanguardia en el reconocimiento de emociones y garantizar la robustez del sistema frente a ruidos externos, todo ello manteniendo una inferencia rápida. En cuanto a la facilidad de uso, se ha creado una interfaz gráfica de usuario que se activa mediante la detección de actividad vocal (VAD). La interfaz intuitiva cuenta con funciones como el acceso al micrófono y la reproducción multimedia, que amplían los usos de SER y permiten mejorar la HCI.

Idioma en-GB

Resumen

Industry 5.0 marks the latest evolution in technological advancements, blending human creativity with the precision of machines. Unlike Industry 4.0, which leaned heavily on automation, Industry 5.0 emphasizes collaboration, ensuring that humans and machines work side by side. Within this framework, Deep Learning (DL) emerges as a pivotal tool. Deep Learning allows to gain insights on data that would have not been possible previously with traditional techniques such as Machine Learning. Therefore, DL is having profound implications across various sectors, from healthcare to entertainment.

An recent development within this realm is Speech Emotion Recognition (SER). SER allows machines to discern and respond to human emotions conveyed through speech. Think of scenarios where a doctor is alerted by the distress in a patient's voice, or when customer service platforms adapt based on a user's mood. SER makes machines more responsive; and also aligns them more closely with human needs and feelings, allowing for a far better Human-Machine Interaction (HCI).

In this work, an end-to-end Speech Emotion Recognition (SER) system will be deployed, which marks a significant departure from traditional machine learning approaches. Accompanying this is a dedicated graphical user interface (GUI) for real-time applications. This offers an intuitive interface for potential users, to use SER to their advantage.

In terms of objectives, the technical focus is twofold: achieving state-of-the-art accuracy in emotion recognition and ensuring system robustness against external noises, all while maintaining fast inference. On the usability front, a responsive GUI, activated through voice activity detection (VAD), is created. The intuitive interface has features like microphone access and media player playback, which amplify the uses of SER and allow for better HCI.

Uri identificador http://hdl.handle.net/11531/78020

Titulación/Programa

Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada / in Smart Industry

Centro

Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Idioma es-ES

Tag Speech emotion recognition (SER)

Idioma es-ES

Tag deep learning

Idioma es-ES

Tag transfer learning

Idioma es-ES

Tag spectrogram

Idioma es-ES

Tag MFCC

Idioma es-ES

Tag recurrent neural network (RNN)

Idioma es-ES

Tag convolutional neural network (CNN)

Idioma es-ES

Tag real-time

Idioma es-ES

Tag GUI

Idioma es-ES

Tag Voice Activity Detector (VAD).

Idioma en-GB

Tag Reconocimiento de la emoción en el habla (SER)

Idioma en-GB

Tag aprendizaje profundo

Idioma en-GB

Tag aprendizaje transferido

Idioma en-GB

Tag espectrograma

Idioma en-GB

Tag MFCC

Idioma en-GB

Tag red neuronal recurrente (RNN)

Idioma en-GB

Tag red neuronal convolucional (CNN)

Idioma en-GB

Tag tiempo real

Idioma en-GB

Tag GUI

Idioma en-GB

Tag Detector de Actividad de Voz (VAD).

Tipo de archivo application/pdf

Idioma en-GB

Tipo de acceso info:eu-repo/semantics/closedAccess

Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/

Fecha de modificacion 07/09/2023

Fecha de disponibilidad 26/04/2023

fecha de alta 26/04/2023

Send link

Editors: Comillas , Administradores CKH · Universidad de Comillas

Shared with:

CKH Explorer