La Fundación Arc Prize ha desarrollado una nueva prueba AGI, denominada ARC-AGI-2, para evaluar la inteligencia general de los modelos de IA. La prueba, cofundada por el investigador de IA François Chollet, ha demostrado ser todo un reto, y los principales modelos, como OpenAI’s o1-pro y DeepSeeks R1, han obtenido puntuaciones de entre el 1% y el 1,3%. En cambio, los humanos que participaron en la prueba obtuvieron una puntuación media del 60%. La prueba ARC-AGI-2 presenta problemas de tipo rompecabezas que requieren que la IA identifique patrones visuales y se adapte a nuevos retos. Esta iteración pretende subsanar los fallos de su predecesora, haciendo hincapié en la eficiencia y la capacidad de interpretar patrones en lugar de basarse en la computación de fuerza bruta. Chollet señaló que la nueva prueba mide mejor la inteligencia de la IA, ya que evita que los modelos se limiten a memorizar soluciones. La fundación también ha lanzado un concurso para animar a los desarrolladores a alcanzar un 85% de precisión en la nueva prueba minimizando los costes. En general, ARC-AGI-2 pretende proporcionar un punto de referencia más matizado para evaluar las capacidades de la IA.
