Qwen QVQ-72B, vyvinutý spoločnosťou Alibaba, je pokročilý vizuálny argumentačný LLM s otvoreným zdrojovým kódom, ktorý bol vydaný v decembri 2024. Integruje vizuálne a jazykové spracovanie, čo mu umožňuje porozumieť a analyzovať textové aj obrazové vstupy. Model preukázal výrazné zlepšenie výkonu a v benchmarku Multimodal Math Understanding dosiahol skóre 70,3, čím prekonal svojho predchodcu Qwen2-VL-72B-Instruct. QVQ je určený na komplexné analytické úlohy, pričom vykazuje rozšírené schopnosti uvažovania, najmä pri riešení zložitých fyzikálnych problémov.
Napriek svojmu pokroku má QVQ obmedzenia, vrátane problémov s miešaním jazykov a udržiavaním sústredenia na obsah obrazu počas viacstupňového uvažovania, čo môže viesť k nepresnostiam. Model je postavený na architektúre založenej na transformátoroch odvodených od Qwen2-VL-72B, čím sa zlepšujú jeho možnosti spracovania rôznych úloh. Je to otvorený zdrojový kód, ktorý umožňuje výskumníkom a vývojárom voľný prístup a využitie, hoci jeho veľká veľkosť môže obmedziť použitie na GPU spotrebiteľskej triedy.
Uvádzame príklad schopností QVQ’, ktorý ukazuje jeho schopnosť presne spočítať objekty na obrázku, konkrétne identifikovať šesť pelikánov na danom obrázku. Používatelia môžu k modelu pristupovať prostredníctvom platforiem ako Hugging Face a dokument nabáda k experimentovaniu s Qwen QVQ pri úlohách vizuálneho uvažovania.
