Arc Prize Foundation tarafından yapay zeka modellerinin genel zekasını değerlendirmek üzere ARC-AGI-2 adı verilen yeni bir yapay zeka testi geliştirildi. Yapay zeka araştırmacısı François Chollet tarafından kurulan test, OpenAI’nin o1-pro ve DeepSeeks R1 gibi önde gelen modellerin %1 ile %1,3 arasında puan almasıyla zorlu olduğunu kanıtladı. Buna karşılık, teste katılan insanlar ortalama %60 puan elde etti. ARC-AGI-2 testi, yapay zekanın görsel kalıpları tanımlamasını ve yeni zorluklara uyum sağlamasını gerektiren bulmaca benzeri problemler içeriyor. Bu yineleme, kaba kuvvet hesaplamasına dayanmak yerine verimliliği ve kalıpları yorumlama yeteneğini vurgulayarak önceki testin kusurlarını gidermeyi amaçlıyor. Chollet yeni testin, modellerin sadece çözümleri ezberlemesini engellediği için yapay zekanın daha iyi bir ölçüsü olduğunu belirtti. Vakıf ayrıca, geliştiricileri maliyetleri en aza indirirken yeni testte %85 doğruluk oranına ulaşmaya teşvik eden bir yarışma başlattı. Genel olarak ARC-AGI-2, yapay zekanın yeteneklerini değerlendirmek için daha incelikli bir ölçüt sağlamayı amaçlamaktadır.
