Speech Emotion Recognition with Deep Learning
tipo de documento semantico ckh_publication
Ficheros
Resumen
La Industria 5.0 marca la última evolución en avances tecnológicos, mezclando la creatividad humana con la precisión de las máquinas. A diferencia de la Industria 4.0, que se apoyaba en gran medida en la automatización, la Industria 5.0 hace hincapié en la colaboración, garantizando que humanos y máquinas trabajen codo con codo. En este marco, el aprendizaje profundo (Deep Learning, DL) emerge como una herramienta fundamental. El aprendizaje profundo permite obtener información sobre los datos que antes no hubiera sido posible con técnicas tradicionales como el aprendizaje automático. Por lo tanto, el aprendizaje profundo está teniendo profundas implicaciones en diversos sectores, desde la sanidad hasta el entretenimiento.
Un avance reciente en este ámbito es el reconocimiento de las emociones del habla (SER). El SER permite a las máquinas discernir y responder a las emociones humanas transmitidas a través del habla. Piense en escenarios en los que un médico es alertado por la angustia en la voz de un paciente, o cuando las plataformas de atención al cliente se adaptan en función del estado de ánimo de un usuario. La tecnología SER hace que las máquinas sean más receptivas y las acerca más a las necesidades y sentimientos humanos, lo que permite una mejor interacción persona-máquina (HCI).
En este trabajo se desplegará un sistema integral de Reconocimiento de Emociones del Habla (SER), que supone un cambio significativo con respecto a los enfoques tradicionales de aprendizaje automático. Se acompaña de una interfaz gráfica de usuario (GUI) específica para aplicaciones en tiempo real. Esto ofrece una interfaz intuitiva para que los usuarios potenciales utilicen SER en su beneficio.
En cuanto a los objetivos, el enfoque técnico es doble: lograr una precisión de vanguardia en el reconocimiento de emociones y garantizar la robustez del sistema frente a ruidos externos, todo ello manteniendo una inferencia rápida. En cuanto a la facilidad de uso, se ha creado una interfaz gráfica de usuario que se activa mediante la detección de actividad vocal (VAD). La interfaz intuitiva cuenta con funciones como el acceso al micrófono y la reproducción multimedia, que amplían los usos de SER y permiten mejorar la HCI.
Industry 5.0 marks the latest evolution in technological advancements, blending human creativity with the precision of machines. Unlike Industry 4.0, which leaned heavily on automation, Industry 5.0 emphasizes collaboration, ensuring that humans and machines work side by side. Within this framework, Deep Learning (DL) emerges as a pivotal tool. Deep Learning allows to gain insights on data that would have not been possible previously with traditional techniques such as Machine Learning. Therefore, DL is having profound implications across various sectors, from healthcare to entertainment.
An recent development within this realm is Speech Emotion Recognition (SER). SER allows machines to discern and respond to human emotions conveyed through speech. Think of scenarios where a doctor is alerted by the distress in a patient's voice, or when customer service platforms adapt based on a user's mood. SER makes machines more responsive; and also aligns them more closely with human needs and feelings, allowing for a far better Human-Machine Interaction (HCI).
In this work, an end-to-end Speech Emotion Recognition (SER) system will be deployed, which marks a significant departure from traditional machine learning approaches. Accompanying this is a dedicated graphical user interface (GUI) for real-time applications. This offers an intuitive interface for potential users, to use SER to their advantage.
In terms of objectives, the technical focus is twofold: achieving state-of-the-art accuracy in emotion recognition and ensuring system robustness against external noises, all while maintaining fast inference. On the usability front, a responsive GUI, activated through voice activity detection (VAD), is created. The intuitive interface has features like microphone access and media player playback, which amplify the uses of SER and allow for better HCI.
Palabras clave
Editors: Comillas , Administradores CKH · Universidad de Comillas
Shared with: