Qwen QVQ-72B, desarrollado por Alibaba, es un LLM avanzado de razonamiento visual de código abierto lanzado en diciembre de 2024. Integra el procesamiento visual y lingüístico, lo que le permite comprender y analizar tanto texto como imágenes. El modelo ha demostrado importantes mejoras de rendimiento, alcanzando una puntuación de 70,3 en la prueba de referencia Multimodal Math Understanding, superando a su predecesor, Qwen2-VL-72B-Instruct. QVQ está diseñado para tareas analíticas complejas, mostrando capacidades de razonamiento mejoradas, especialmente en la resolución de intrincados problemas de física.
A pesar de sus avances, QVQ tiene limitaciones, como los problemas que plantea la mezcla de lenguajes y el mantenimiento de la atención en el contenido de la imagen durante el razonamiento en varios pasos, lo que puede dar lugar a imprecisiones. El modelo se basa en una arquitectura de transformadores derivada de Qwen2-VL-72B, lo que mejora su capacidad de procesamiento en diversas tareas. Es de código abierto, lo que permite a investigadores y desarrolladores acceder a él y utilizarlo libremente, aunque su gran tamaño puede limitar su uso en GPU de consumo.
Un ejemplo de las capacidades de QVQ’ muestra su capacidad para contar objetos con precisión en una imagen, en concreto para identificar seis pelícanos en una fotografía determinada. Los usuarios pueden acceder al modelo a través de plataformas como Hugging Face, y el documento anima a experimentar con Qwen QVQ para tareas de razonamiento visual.
