Nový náročný test AGI prekonáva väčšinu modelov AI | TechCrunch

Illustrate an image in a positive and light style, maintaining 3:2 aspect ratio. Display a variety of visual puzzles and patterns, symbolizing an AGI test. The puzzles can be made up of geometric shapes, intricate designs or complex mazes. Additionally, add a division showing human and AI participants. On the human side, indicate variety by illustrating a Caucasian man, an Asian woman, and a Black child enthusiastically solving the puzzles. On the AI side, show digital bots in different shapes and sizes trying to interpret the puzzles. Also, feature representations of AI models, such as circuits or binary codes, scoring lower than the human individuals. Lastly, incorporate a scoreboard showing humans scoring higher than AI models.

Nadácia Arc Prize Foundation vyvinula nový test AGI s názvom ARC-AGI-2 na hodnotenie všeobecnej inteligencie modelov AI. Test, ktorý spoluzaložil výskumník AI François Chollet, sa ukázal ako náročný, pričom popredné modely ako OpenAI’o1-pro a DeepSeeks R1 dosiahli skóre od 1 % do 1,3 %. Naproti tomu ľudia, ktorí sa testu zúčastnili, dosiahli priemerné skóre 60 %. Test ARC-AGI-2 obsahuje úlohy typu puzzle, ktoré od umelej inteligencie vyžadujú identifikáciu vizuálnych vzorov a prispôsobenie sa novým výzvam. Cieľom tejto iterácie je odstrániť nedostatky z jej predchodkyne, pričom sa kladie dôraz na efektívnosť a schopnosť interpretovať vzory namiesto spoliehania sa na hrubé výpočty. Chollet poznamenal, že nový test je lepším meradlom inteligencie umelej inteligencie, pretože zabraňuje modelom jednoducho si zapamätať riešenia. Nadácia tiež vyhlásila súťaž, v ktorej vyzýva vývojárov, aby v novom teste dosiahli 85 % presnosť a zároveň minimalizovali náklady. Celkovo sa ARC-AGI-2 snaží poskytnúť diferencovanejšie kritérium na hodnotenie schopností AI&#8217.

Celý článok

Pridaj komentár