Treffer: Reducción de costes computacionales en aprendizaje por refuerzo a través de transferencia de conocimiento entre agentes en MuJoCo ; Reducing computational costs in reinforcement learning through knowledge transfer between agents in MuJoCo ; Reducció dels costos computacionals en aprenentatge per reforç mitjançant la transferència de coneixement entre agents en MuJoCo
Weitere Informationen
[ES] Este proyecto explorará una estrategia de aprendizaje por refuerzo orientada a reducir los costes computacionales y energéticos mediante la reutilización de conocimientos previamente adquiridos entre distintos agentes en entornos simulados de MuJoCo. La metodología consistirá en entrenar un modelo base (Walker2D) para una tarea de locomoción, que posteriormente se adaptará a agentes más complejos como Humanoid y HumanoidStandup mediante técnicas de aprendizaje por transferencia. La hipótesis central será que este enfoque permitirá alcanzar un rendimiento comparable o superior con menos pasos de entrenamiento y un menor consumo de recursos, en comparación con el entrenamiento desde cero. Para llevar a cabo los experimentos, se empleará el algoritmo Proximal Policy Optimization, utilizando la librería Stable-Baselines3 en Python. Se analizarán métricas clave como la recompensa acumulada, el número de pasos necesarios, el tiempo total de entrenamiento y una estimación del consumo energético. Se espera que el uso de un modelo base preentrenado permita reducir significativamente el tiempo de entrenamiento sin comprometer el rendimiento final. Esta aproximación contribuirá al desarrollo de sistemas inteligentes más sostenibles y escalables en los ámbitos de la robótica y la inteligencia artificial. ; [EN] This project will explore a reinforcement learning strategy aimed at reducing computational and energy costs through the reuse of previously acquired knowledge between different agents in simulated MuJoCo environments. The methodology will consist of training a base model (Walker2D) for a locomotion task, which will then be adapted to more complex agents such as Humanoid and HumanoidStandup using transfer learning techniques. The central hypothesis is that this approach will achieve comparable or superior performance with fewer training steps and lower resource consumption compared to training from scratch. The experiments will be carried out using the Proximal Policy Optimization algorithm, implemented with the ...