Ein neuer AGI-Test, ARC-AGI-2 genannt, wurde von der Arc Prize Foundation entwickelt, um die allgemeine Intelligenz von KI-Modellen zu bewerten. Der von dem KI-Forscher François Chollet mitbegründete Test hat sich als schwierig erwiesen. Führende Modelle wie o1-pro von OpenAI und DeepSeeks R1 erreichten zwischen 1 % und 1,3 %. Menschen, die an dem Test teilnahmen, erreichten dagegen eine durchschnittliche Punktzahl von 60 %. Der ARC-AGI-2-Test besteht aus puzzleartigen Aufgaben, bei denen die KI visuelle Muster erkennen und sich an neue Herausforderungen anpassen muss. Mit dieser Version sollen die Schwächen des Vorgängers behoben werden, indem der Schwerpunkt auf Effizienz und die Fähigkeit, Muster zu interpretieren, gelegt wird, anstatt sich auf Brute-Force-Rechnungen zu verlassen. Chollet merkte an, dass der neue Test ein besseres Maß für die KI-Intelligenz ist, da er verhindert, dass die Modelle Lösungen einfach auswendig lernen. Die Stiftung hat außerdem einen Wettbewerb ausgeschrieben, bei dem die Entwickler aufgefordert werden, eine Genauigkeit von 85 % bei dem neuen Test zu erreichen und gleichzeitig die Kosten zu minimieren. Insgesamt soll ARC-AGI-2 einen nuancierteren Maßstab für die Bewertung der Fähigkeiten von KI bieten.
