ImageBind: Aprendizaje holístico de la IA en seis modalidades

Meta ha presentado ImageBind, un modelo de inteligencia artificial capaz de vincular información de seis modalidades: texto, imagen/vídeo, audio, profundidad, temperatura y unidades de medición inercial (IMU). El modelo aprende una única incrustación, o espacio de representación compartido, para todas las modalidades, lo que permite a las máquinas analizar mejor diferentes formas de información de forma conjunta. ImageBind puede superar a modelos especializados anteriores entrenados individualmente para una modalidad concreta. El modelo forma parte de los esfuerzos de Meta&#8217 por crear sistemas de IA multimodales que aprendan de todos los tipos posibles de datos que los rodean. ImageBind demuestra que los datos emparejados con imágenes son suficientes para unir estas seis modalidades, lo que permite a otros modelos comprender nuevas modalidades sin necesidad de un entrenamiento que consuma muchos recursos. El fuerte comportamiento de escalado del modelo le permite sustituir o mejorar muchos modelos de IA al permitirles utilizar otras modalidades. ImageBind también ha alcanzado un rendimiento puntero en tareas emergentes de reconocimiento de cero disparos en todas las modalidades. La comunidad investigadora de la IA aún tiene que cuantificar eficazmente los comportamientos de escalado que sólo aparecen en modelos más grandes y comprender sus aplicaciones. Meta espera que la comunidad investigadora explore ImageBind y el artículo publicado que lo acompaña para encontrar nuevas formas de evaluar los modelos de visión y dar lugar a nuevas aplicaciones.

ImageBind.

artículo completo

Deja una respuesta