Nadácia Arc Prize Foundation vyvinula nový test AGI s názvom ARC-AGI-2 na hodnotenie všeobecnej inteligencie modelov AI. Test, ktorý spoluzaložil výskumník AI François Chollet, sa ukázal ako náročný, pričom popredné modely ako OpenAI’o1-pro a DeepSeeks R1 dosiahli skóre od 1 % do 1,3 %. Naproti tomu ľudia, ktorí sa testu zúčastnili, dosiahli priemerné skóre 60 %. Test ARC-AGI-2 obsahuje úlohy typu puzzle, ktoré od umelej inteligencie vyžadujú identifikáciu vizuálnych vzorov a prispôsobenie sa novým výzvam. Cieľom tejto iterácie je odstrániť nedostatky z jej predchodkyne, pričom sa kladie dôraz na efektívnosť a schopnosť interpretovať vzory namiesto spoliehania sa na hrubé výpočty. Chollet poznamenal, že nový test je lepším meradlom inteligencie umelej inteligencie, pretože zabraňuje modelom jednoducho si zapamätať riešenia. Nadácia tiež vyhlásila súťaž, v ktorej vyzýva vývojárov, aby v novom teste dosiahli 85 % presnosť a zároveň minimalizovali náklady. Celkovo sa ARC-AGI-2 snaží poskytnúť diferencovanejšie kritérium na hodnotenie schopností AI’.
