Ein neuer, anspruchsvoller AGI-Test lässt die meisten KI-Modelle scheitern

Ein neuer, anspruchsvoller AGI-Test lässt die meisten KI-Modelle scheitern | TechCrunch

March 27, 2025

Nachrichten

Illustrate an image in a positive and light style, maintaining 3:2 aspect ratio. Display a variety of visual puzzles and patterns, symbolizing an AGI test. The puzzles can be made up of geometric shapes, intricate designs or complex mazes. Additionally, add a division showing human and AI participants. On the human side, indicate variety by illustrating a Caucasian man, an Asian woman, and a Black child enthusiastically solving the puzzles. On the AI side, show digital bots in different shapes and sizes trying to interpret the puzzles. Also, feature representations of AI models, such as circuits or binary codes, scoring lower than the human individuals. Lastly, incorporate a scoreboard showing humans scoring higher than AI models.

Ein neuer AGI-Test, ARC-AGI-2 genannt, wurde von der Arc Prize Foundation entwickelt, um die allgemeine Intelligenz von KI-Modellen zu bewerten. Der von dem KI-Forscher François Chollet mitbegründete Test hat sich als schwierig erwiesen. Führende Modelle wie o1-pro von OpenAI und DeepSeeks R1 erreichten zwischen 1 % und 1,3 %. Menschen, die an dem Test teilnahmen, erreichten dagegen eine durchschnittliche Punktzahl von 60 %. Der ARC-AGI-2-Test besteht aus puzzleartigen Aufgaben, bei denen die KI visuelle Muster erkennen und sich an neue Herausforderungen anpassen muss. Mit dieser Version sollen die Schwächen des Vorgängers behoben werden, indem der Schwerpunkt auf Effizienz und die Fähigkeit, Muster zu interpretieren, gelegt wird, anstatt sich auf Brute-Force-Rechnungen zu verlassen. Chollet merkte an, dass der neue Test ein besseres Maß für die KI-Intelligenz ist, da er verhindert, dass die Modelle Lösungen einfach auswendig lernen. Die Stiftung hat außerdem einen Wettbewerb ausgeschrieben, bei dem die Entwickler aufgefordert werden, eine Genauigkeit von 85 % bei dem neuen Test zu erreichen und gleichzeitig die Kosten zu minimieren. Insgesamt soll ARC-AGI-2 einen nuancierteren Maßstab für die Bewertung der Fähigkeiten von KI bieten.

Ganzer Artikel

Einen Kommentar hinterlassen Cancel reply

Verwandte Artikel

Ein neuer, anspruchsvoller AGI-Test lässt die meisten KI-Modelle scheitern | TechCrunch

Related Posts

Einen Kommentar hinterlassen Cancel reply

Verwandte Artikel