Qwen QVQ-72B: En iyi açık kaynaklı Görüntü Muhakeme LLM’si

Illustrate an image highlighting the main features of the advanced open-sourced visual reasoning LLM, Qwen QVQ-72B, in an empathetic, light-hearted, and cheerful style, much like what you'd find in pre-1912 animation. Perhaps show the LLM analyzing both text and images, solving complex physics problems, and accurately counting pelicans in an image. Also, depict signals of its open-source nature, its multi-step reasoning process and its transformer-based structure, all while maintaining a positive and light atmosphere. Note a 3:2 aspect ratio is desired for the image.

Alibaba tarafından geliştirilen Qwen QVQ-72B, Aralık 2024’te piyasaya sürülen gelişmiş bir açık kaynaklı görsel muhakeme LLM’sidir. Görsel ve dil işlemeyi entegre ederek hem metin hem de görüntü girdilerini anlamasını ve analiz etmesini sağlar. Model, Multimodal Math Understanding kıyaslamasında 70,3 puan alarak selefi Qwen2-VL-72B-Instruct’ı geride bırakarak önemli performans iyileştirmeleri göstermiştir. QVQ, karmaşık analitik görevler için tasarlanmıştır ve özellikle karmaşık fizik problemlerinin çözümünde gelişmiş muhakeme yetenekleri gösterir.

Gelişmelerine rağmen QVQ, dil karıştırma ve çok adımlı muhakeme sırasında görüntü içeriğine odaklanmayı sürdürme gibi yanlışlıklara yol açabilecek zorluklar da dahil olmak üzere sınırlamalara sahiptir. Model, Qwen2-VL-72B’den türetilen transformatör tabanlı bir mimari üzerine inşa edilmiş ve çeşitli görevlerde işleme yeteneklerini geliştirmiştir. Büyük boyutu tüketici sınıfı GPU’larda kullanımı sınırlayabilse de, araştırmacıların ve geliştiricilerin serbestçe erişmesine ve kullanmasına olanak tanıyan açık kaynak kodludur.

QVQ’nun yeteneklerinin bir örneği, bir görüntüdeki nesneleri doğru bir şekilde sayma yeteneğini, özellikle de belirli bir resimdeki altı pelikanı tanımladığını göstermektedir. Kullanıcılar modele Hugging Face gibi platformlar aracılığıyla erişebilir ve belge görsel akıl yürütme görevleri için Qwen QVQ ile denemeler yapılmasını teşvik eder.

.

Makalenin tamamı

Bir yanıt yazın