Voyager: Un agente encarnado abierto con grandes modelos lingüísticos

El documento presenta a Voyager, un agente de aprendizaje permanente incorporado en Minecraft que explora continuamente el mundo, adquiere diversas habilidades y realiza nuevos descubrimientos sin intervención humana. Voyager consta de tres componentes clave: un plan de estudios automático que maximiza la exploración, una biblioteca de habilidades en constante crecimiento de código ejecutable para almacenar y recuperar comportamientos complejos, y un nuevo mecanismo iterativo que incorpora la retroalimentación del entorno, los errores de ejecución, y la auto-verificación para la mejora del programa. Voyager interactúa con GPT-4 a través de consultas de caja negra, lo que evita la necesidad de ajustar los parámetros del modelo. Empíricamente, Voyager muestra una fuerte capacidad de aprendizaje permanente en contexto y exhibe una excepcional destreza jugando a Minecraft. Obtiene 3,3 veces más objetos únicos, recorre 2,3 veces más distancias y desbloquea hitos clave del árbol tecnológico hasta 15,3 veces más rápido que el SOTA anterior. Voyager es capaz de utilizar la biblioteca de habilidades aprendidas en un nuevo mundo de Minecraft para resolver tareas novedosas desde cero, mientras que otras técnicas tienen dificultades para generalizarse. El documento también analiza los retos que plantea la creación de agentes corporales capaces de explorar, planificar y desarrollar continuamente nuevas habilidades en mundos abiertos. Los autores argumentan que los enfoques clásicos emplean el aprendizaje por refuerzo (RL) y el aprendizaje por imitación que operan sobre acciones primitivas, lo que podría suponer un reto para la exploración sistemática, la interpretabilidad y la generalización. Los últimos avances en agentes basados en grandes modelos de lenguaje (LLM) aprovechan el conocimiento del mundo encapsulado en LLM preentrenados para generar planes de acción coherentes o políticas ejecutables. Se aplican a tareas corporales como los juegos y la robótica, así como a tareas de PNL sin corporalidad. El documento concluye afirmando que Voyager sirve como punto de partida para desarrollar potentes agentes generalistas sin necesidad de afinar los parámetros del modelo.

artículo completo

Deja una respuesta