Alibaba tarafından geliştirilen Qwen QVQ-72B, Aralık 2024’te piyasaya sürülen gelişmiş bir açık kaynaklı görsel muhakeme LLM’sidir. Görsel ve dil işlemeyi entegre ederek hem metin hem de görüntü girdilerini anlamasını ve analiz etmesini sağlar. Model, Multimodal Math Understanding kıyaslamasında 70,3 puan alarak selefi Qwen2-VL-72B-Instruct’ı geride bırakarak önemli performans iyileştirmeleri göstermiştir. QVQ, karmaşık analitik görevler için tasarlanmıştır ve özellikle karmaşık fizik problemlerinin çözümünde gelişmiş muhakeme yetenekleri gösterir.
Gelişmelerine rağmen QVQ, dil karıştırma ve çok adımlı muhakeme sırasında görüntü içeriğine odaklanmayı sürdürme gibi yanlışlıklara yol açabilecek zorluklar da dahil olmak üzere sınırlamalara sahiptir. Model, Qwen2-VL-72B’den türetilen transformatör tabanlı bir mimari üzerine inşa edilmiş ve çeşitli görevlerde işleme yeteneklerini geliştirmiştir. Büyük boyutu tüketici sınıfı GPU’larda kullanımı sınırlayabilse de, araştırmacıların ve geliştiricilerin serbestçe erişmesine ve kullanmasına olanak tanıyan açık kaynak kodludur.
QVQ’nun yeteneklerinin bir örneği, bir görüntüdeki nesneleri doğru bir şekilde sayma yeteneğini, özellikle de belirli bir resimdeki altı pelikanı tanımladığını göstermektedir. Kullanıcılar modele Hugging Face gibi platformlar aracılığıyla erişebilir ve belge görsel akıl yürütme görevleri için Qwen QVQ ile denemeler yapılmasını teşvik eder.
.
