CompartidoEl 23/11/22 por Comillas
Trabajo fin de máster

Integración y aplicación de técnicas de aprendizaje por refuerzo al robot IRB120 en el entorno virtual de MuJoCo

tipo de documento semantico ckh_publication

Ficheros

Resumen Trabajo Fin de Máster
TFM-Dong, Lixiang.pdf
Tamaño 2631898
Formato Adobe PDF
Resumen Autorización
AnexoI.pdf
Tamaño 71331
Formato Adobe PDF
Fecha de publicación 00/00/2020
Director/Coordinador
Güitta López, Lucía
López López, Álvaro Jesús

Resumen

Idioma es-ES
Resumen

El aprendizaje por refuerzo se considera el tercer paradigma del aprendizaje automático junto con el aprendizaje supervisado y el aprendizaje no supervisado. Es una clase de algoritmos en el campo del aprendizaje automático que permite a un agente aprender a cómo comportarse en un entorno donde la única realimentación consta de una señal de recompensa escalar, la cual indica cómo de bien lo está haciendo en el momento inmediato. El objetivo del agente consiste en ejecutar acciones que maximice la recompensa en el largo plazo o retorno.
Si bien las técnicas de aprendizaje por refuerzo están siendo impulsadas por diversos grupos investigadores en varios ámbitos, sobre todo en los juegos de Atari y la robótica, la complejidad del movimiento de los brazos robóticos puede parecer a priori un hándicap para aplicar este proceso de aprendizaje que requiere de numerosos episodios para que el agente explore y aprenda a partir de prueba y error. Sin embargo, mediante el entrenamiento en entornos simulados y su posterior transferencia al mundo real se evitan los riesgos asociados a movimientos del robot que puedan resultar en posiciones singulares o en daños al medio y se favorece un aprendizaje más rápido ya que se infieren los parámetros desde el modelo virtual y no se está limitado por restricciones físicas.
En esta tesis se implementará el algoritmo de aprendizaje por refuerzo A3C con un modelo MuJoCo del brazo robótico IRB120 para realizar la tarea de alcanzar un objetivo en su área de trabajo.

Idioma en-GB
Resumen

Reinforcement learning is considered the third paradigm of machine learning along with supervised learning and unsupervised learning. It is a class of algorithms in the field of machine learning that allows an agent to learn how to behave in an environment with a scalar reward as feedback. The objective of the agent is to execute actions that maximize the long-term reward or return.
Although reinforcement learning techniques are pushed forward by many research groups in many fields, such as Atari games and robotics, the movement complexity of robotics arms seems to be a problem to implement learning techniques that require numerous episodes for the agent to explore and learn from trial and error. Nonetheless, by training in a simulated environment and its later transfer to the real world, the risks associated with the movement of physical robot can be avoided. Using a simulated environment also increases the learning speed since it is not limited by physical constraints and the parameters can be inferred from the virtual model.
In this thesis, the reinforcement learning algorithm A3C will be implemented using a MuJoCo model of the IRB120 robot manipulator to carry out a reach target task.

Centro
Escuela Técnica Superior de Ingeniería (ICAI)

Palabras clave

Tipo de archivo application/pdf
Idioma en-GB
Tipo de acceso info:eu-repo/semantics/closedAccess
Licencia http://creativecommons.org/licenses/by-nc-nd/3.0/us/
Fecha de modificacion 09/09/2022
Fecha de disponibilidad 10/06/2020
fecha de alta 10/06/2020

Compartida con: