Der von Alibaba entwickelte Qwen QVQ-72B ist ein fortschrittliches, offen zugängliches Visual Reasoning LLM, das im Dezember 2024 veröffentlicht wird. Es integriert visuelle und sprachliche Verarbeitung, so dass es sowohl Text- als auch Bildeingaben verstehen und analysieren kann. Das Modell hat signifikante Leistungsverbesserungen gezeigt und erreichte eine Punktzahl von 70,3 im Multimodal Math Understanding Benchmark und übertraf damit seinen Vorgänger Qwen2-VL-72B-Instruct. QVQ ist für komplexe analytische Aufgaben konzipiert und zeigt verbesserte Denkfähigkeiten, insbesondere bei der Lösung komplizierter physikalischer Probleme.
Trotz seiner Fortschritte weist QVQ einige Einschränkungen auf, darunter Probleme bei der Sprachmischung und der Beibehaltung des Fokus auf den Bildinhalt während des mehrstufigen Denkens, was zu Ungenauigkeiten führen kann. Das Modell basiert auf einer transformatorbasierten Architektur, die von Qwen2-VL-72B abgeleitet ist und seine Verarbeitungsfähigkeiten für verschiedene Aufgaben verbessert. Es ist quelloffen und kann von Forschern und Entwicklern frei genutzt werden, auch wenn seine Größe die Verwendung auf Consumer-GPUs einschränken könnte.
Ein Beispiel für die Fähigkeiten von QVQ’ zeigt seine Fähigkeit, Objekte in einem Bild genau zu zählen, insbesondere die Identifizierung von sechs Pelikanen in einem bestimmten Bild. Benutzer können über Plattformen wie Hugging Face auf das Modell zugreifen, und das Dokument ermutigt zum Experimentieren mit Qwen QVQ für visuelle Schlussfolgerungen.
