Result: Task-conditioned adaptation of visual features in multi-task policy learning

Title:
Task-conditioned adaptation of visual features in multi-task policy learning
Contributors:
Robots coopératifs et adaptés à la présence humaine en environnements (CHROMA), Centre Inria de l'Université Grenoble Alpes, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-CITI Centre of Innovation in Telecommunications and Integration of services (CITI), Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Centre Inria de Lyon, Institut National de Recherche en Informatique et en Automatique (Inria), Extraction de Caractéristiques et Identification (imagine), Pôle informatique graphique et géométrie (IGG), Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL), Université de Lyon-Université de Lyon-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Institut National des Sciences Appliquées de Lyon (INSA Lyon), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université Lumière - Lyon 2 (UL2)-École Centrale de Lyon (ECL), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), CITI Centre of Innovation in Telecommunications and Integration of services (CITI), Université de Lyon-Institut National des Sciences Appliquées (INSA)-Université de Lyon-Institut National des Sciences Appliquées (INSA)-Institut National de Recherche en Informatique et en Automatique (Inria), Université de Lyon-Institut National des Sciences Appliquées (INSA), Systèmes Cognitifs et Systèmes Multi-Agents (SyCoSMA), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon, Naver Labs Europe [Meylan]
Source:
CVPR 2024 - IEEE/CVF Conference on Computer Vision and Pattern Recognition. :1-16
Publisher Information:
CCSD; IEEE, 2024.
Publication Year:
2024
Collection:
collection:CNRS
collection:INRIA
collection:UNIV-LYON1
collection:UNIV-LYON2
collection:INSA-LYON
collection:EC-LYON
collection:INRIA-RHA
collection:LIRIS
collection:INRIA_TEST
collection:TESTALAIN1
collection:INRIA2
collection:INRIA-RENGRE
collection:LYON2
collection:CITI
collection:INSA-GROUPE
collection:UDL
collection:UNIV-LYON
collection:INRIA-LYS
collection:HAL-LYON-2-NOUVELLE-VERSION
Subject Geographic:
Original Identifier:
HAL: hal-04569375
Document Type:
Conference conferenceObject<br />Conference papers
Language:
English
Rights:
info:eu-repo/semantics/OpenAccess
URL: http://creativecommons.org/licenses/by/
Accession Number:
edshal.hal.04569375v1
Database:
HAL

Further Information

Successfully addressing a wide variety of tasks is a core ability of autonomous agents, requiring flexibly adapting the underlying decision-making strategies and, as we argue in this work, also adapting the perception modules. An analogical argument would be the human visual system, which uses top-down signals to focus attention determined by the current task. Similarly, we adapt pre-trained large vision models conditioned on specific downstream tasks in the context of multi-task policy learning. We introduce task-conditioned adapters that do not require finetuning any pre-trained weights, combined with a single policy trained with behavior cloning and capable of addressing multiple tasks. We condition the visual adapters on task embeddings, which can be selected at inference if the task is known, or alternatively inferred from a set of example demonstrations. To this end, we propose a new optimization-based estimator. We evaluate the method on a wide variety of tasks from the CortexBench benchmark and show that, compared to existing work, it can be addressed with a single policy. In particular, we demonstrate that adapting visual features is a key design choice and that the method generalizes to unseen tasks given a few demonstrations.