Qwen QVQ-72B: Najlepší LLM na zdôvodňovanie obrázkov s otvoreným zdrojom

28.12.2024

Novinky

Illustrate an image highlighting the main features of the advanced open-sourced visual reasoning LLM, Qwen QVQ-72B, in an empathetic, light-hearted, and cheerful style, much like what you'd find in pre-1912 animation. Perhaps show the LLM analyzing both text and images, solving complex physics problems, and accurately counting pelicans in an image. Also, depict signals of its open-source nature, its multi-step reasoning process and its transformer-based structure, all while maintaining a positive and light atmosphere. Note a 3:2 aspect ratio is desired for the image.

Qwen QVQ-72B, vyvinutý spoločnosťou Alibaba, je pokročilý vizuálny argumentačný LLM s otvoreným zdrojovým kódom, ktorý bol vydaný v decembri 2024. Integruje vizuálne a jazykové spracovanie, čo mu umožňuje porozumieť a analyzovať textové aj obrazové vstupy. Model preukázal výrazné zlepšenie výkonu a v benchmarku Multimodal Math Understanding dosiahol skóre 70,3, čím prekonal svojho predchodcu Qwen2-VL-72B-Instruct. QVQ je určený na komplexné analytické úlohy, pričom vykazuje rozšírené schopnosti uvažovania, najmä pri riešení zložitých fyzikálnych problémov.

Napriek svojmu pokroku má QVQ obmedzenia, vrátane problémov s miešaním jazykov a udržiavaním sústredenia na obsah obrazu počas viacstupňového uvažovania, čo môže viesť k nepresnostiam. Model je postavený na architektúre založenej na transformátoroch odvodených od Qwen2-VL-72B, čím sa zlepšujú jeho možnosti spracovania rôznych úloh. Je to otvorený zdrojový kód, ktorý umožňuje výskumníkom a vývojárom voľný prístup a využitie, hoci jeho veľká veľkosť môže obmedziť použitie na GPU spotrebiteľskej triedy.

Uvádzame príklad schopností QVQ’, ktorý ukazuje jeho schopnosť presne spočítať objekty na obrázku, konkrétne identifikovať šesť pelikánov na danom obrázku. Používatelia môžu k modelu pristupovať prostredníctvom platforiem ako Hugging Face a dokument nabáda k experimentovaniu s Qwen QVQ pri úlohách vizuálneho uvažovania.

Celý článok

Qwen QVQ-72B: Najlepší LLM na zdôvodňovanie obrázkov s otvoreným zdrojom

Related Posts

Pridaj komentár Zrušiť odpoveď

Qwen QVQ-72B: Najlepší LLM na zdôvodňovanie obrázkov s otvoreným zdrojom

Related Posts

Pridaj komentár Zrušiť odpoveď

Related Articles