Una nueva y desafiante prueba de inteligencia artificial deja perplejos a la mayoría de los modelos de IA | TechCrunch

Illustrate an image in a positive and light style, maintaining 3:2 aspect ratio. Display a variety of visual puzzles and patterns, symbolizing an AGI test. The puzzles can be made up of geometric shapes, intricate designs or complex mazes. Additionally, add a division showing human and AI participants. On the human side, indicate variety by illustrating a Caucasian man, an Asian woman, and a Black child enthusiastically solving the puzzles. On the AI side, show digital bots in different shapes and sizes trying to interpret the puzzles. Also, feature representations of AI models, such as circuits or binary codes, scoring lower than the human individuals. Lastly, incorporate a scoreboard showing humans scoring higher than AI models.

La Fundación Arc Prize ha desarrollado una nueva prueba AGI, denominada ARC-AGI-2, para evaluar la inteligencia general de los modelos de IA. La prueba, cofundada por el investigador de IA François Chollet, ha demostrado ser todo un reto, y los principales modelos, como OpenAI’s o1-pro y DeepSeeks R1, han obtenido puntuaciones de entre el 1% y el 1,3%. En cambio, los humanos que participaron en la prueba obtuvieron una puntuación media del 60%. La prueba ARC-AGI-2 presenta problemas de tipo rompecabezas que requieren que la IA identifique patrones visuales y se adapte a nuevos retos. Esta iteración pretende subsanar los fallos de su predecesora, haciendo hincapié en la eficiencia y la capacidad de interpretar patrones en lugar de basarse en la computación de fuerza bruta. Chollet señaló que la nueva prueba mide mejor la inteligencia de la IA, ya que evita que los modelos se limiten a memorizar soluciones. La fundación también ha lanzado un concurso para animar a los desarrolladores a alcanzar un 85% de precisión en la nueva prueba minimizando los costes. En general, ARC-AGI-2 pretende proporcionar un punto de referencia más matizado para evaluar las capacidades de la IA.

Artículo completo

Deja una respuesta